Microsoft lanceert Phi-4-Redeneren-Plus, een klein maar krachtig open gewichten redeneringsmodel!
Microsoft Research heeft de lancering van Phi-4-Redeneren-Plus aangekondigd, een open gewichten taalmodel dat is ontwikkeld voor taken die diepgaande, gestructureerde redenering vereisen.
Gebaseerd op de architectuur van de eerder vrijgegeven Phi-4, integreert het nieuwe model begeleide fine-tuning en versterkend leren om de prestaties op benchmarks in wiskunde, wetenschap, codering en logische taken te verbeteren.
Een krachtig model met unieke kenmerken
Phi-4-Redeneren-Plus is een 14 miljard parameters tellend dichte decoder-only Transformer model dat de nadruk legt op kwaliteit boven kwantiteit. Het trainingsproces omvatte 16 miljard tokens, waarvan ongeveer 8,3 miljard uniek zijn, afkomstig uit synthetische en zorgvuldig samengestelde webgebaseerde datasets.
Een fase van versterkend leren, waarbij slechts ongeveer 6.400 wiskundige problemen werden gebruikt, heeft de redeneringscapaciteiten van het model verder verfijnd.
Het model is vrijgegeven onder een permissieve MIT-licentie, waardoor het kan worden gebruikt voor brede commerciële en enterprise-toepassingen, evenals voor fine-tuning of distillatie zonder beperkingen. Het is compatibel met veelgebruikte inferentiekaders zoals Hugging Face Transformers, vLLM, llama.cpp en Ollama.
Overtreft grotere modellen
De ontwikkeling van het model weerspiegelt Microsofts groeiende nadruk op het trainen van kleinere modellen die in staat zijn om de prestaties van veel grotere systemen te evenaren.
Ondanks de relatief bescheiden omvang overtreft Phi-4-Redeneren-Plus grotere open gewichten modellen zoals DeepSeek-R1-Distill-70B op verschillende veeleisende benchmarks.
Op het AIME 2025 wiskunde-examen bijvoorbeeld, behaalt het een hogere gemiddelde nauwkeurigheid bij het correct beantwoorden van alle 30 vragen bij de eerste poging (een prestatie die bekend staat als “pass@1”) dan het 70B parameters distillatiemodel, en benadert het de prestaties van DeepSeek-R1 zelf, dat met 671B parameters veel groter is.
Gestructureerd denken door fine-tuning
Om dit te bereiken, heeft Microsoft een data-centrische trainingsstrategie toegepast.
Tijdens de fase van begeleide fine-tuning werd het model getraind met een zorgvuldig samengestelde mix van synthetische redeneringssporen en gefilterde, hoogwaardige prompts.
Een belangrijke innovatie in de trainingsaanpak was het gebruik van gestructureerde redeneringsuitvoer gemarkeerd met speciale <think> en
Versterkend leren voor nauwkeurigheid en diepgang
Na de fine-tuning heeft Microsoft uitkomstgebaseerd versterkend leren gebruikt, specifiek het Group Relative Policy Optimization (GRPO) algoritme, om de outputnauwkeurigheid en efficiëntie van het model te verbeteren.
De RL-beloningsfunctie was ontworpen om de correctheid in balans te brengen met beknoptheid, herhaling te bestraffen en consistentie in formatting te handhaven. Dit leidde tot langere maar doordachtere reacties, vooral op vragen waarbij het model aanvankelijk weinig vertrouwen had.
Geoptimaliseerd voor onderzoeks- en engineeringbeperkingen
Phi-4-Redeneren-Plus is bedoeld voor gebruik in applicaties waar zowel de diepgang van redenering als de efficiëntie van uitvoering cruciaal zijn. Dit model biedt niet alleen krachtige prestaties, maar ook de flexibiliteit die nodig is voor een breed scala aan toepassingen, van academisch onderzoek tot industriële oplossingen.
Met zijn innovatieve aanpak en geavanceerde technologieën is Phi-4-Redeneren-Plus een belangrijke stap voorwaarts in de wereld van AI en machine learning, en een waardevolle aanvulling op Microsofts portfolio van geavanceerde modellen.
Vertaald met ChatGPT gpt-4o-mini