Mistral heeft zijn open-source Small-model geüpdatet van 3.1 naar 3.2: dit is waarom
De Franse AI-favoriet Mistral blijft deze zomer nieuwe releases uitbrengen. Slechts enkele dagen na de aankondiging van hun eigen AI-geoptimaliseerde cloudservice, Mistral Compute, heeft het goed gefinancierde bedrijf een update uitgebracht voor zijn open-source model met 24 miljard parameters, Mistral Small. Deze update brengt het model van versie 3.1 naar 3.2-24B Instruct-2506.
Een focus op verbetering
De nieuwe versie bouwt voort op Mistral Small 3.1 en heeft als doel specifieke gedragingen te verbeteren, zoals het opvolgen van instructies, de stabiliteit van de uitvoer en de robuustheid van functieaanroepen. Hoewel de algemene architecturale details ongewijzigd blijven, introduceert de update gerichte verfijningen die zowel interne evaluaties als publieke benchmarks beïnvloeden.
Volgens Mistral AI is Small 3.2 beter in het opvolgen van nauwkeurige instructies en vermindert het de kans op oneindige of repetitieve generaties - een probleem dat soms voorkwam in eerdere versies bij het verwerken van lange of ambiguë prompts. Daarnaast is de sjabloon voor functieaanroepen geüpgraded om betrouwbaardere scenario's voor toolgebruik te ondersteunen, met name in frameworks zoals vLLM.
Tegelijkertijd kan het draaien op een opstelling met een enkele Nvidia A100/H100 80GB GPU, wat de opties voor bedrijven met beperkte rekenkracht en/of budgetten drastisch vergroot.
Een geüpdatet model na slechts 3 maanden
Mistral Small 3.1 werd aangekondigd in maart 2025 als een vlaggenschip open release in de 24B-parameterreeks. Het bood volledige multimodale mogelijkheden, meertalige begrip en lange-contextverwerking van tot 128K tokens. Het model was expliciet gepositioneerd tegen propriëtaire concurrenten zoals GPT-4o Mini, Claude 3.5 Haiku en Gemma 3-it, en volgens Mistral presteerde het beter in veel taken.
Small 3.1 benadrukte ook efficiënte implementatie, met claims van het uitvoeren van inferentie bij 150 tokens per seconde en ondersteuning voor gebruik op apparaten met 32 GB RAM. Deze release kwam met zowel basis- als instructie-checkpoints, wat flexibiliteit bood voor fine-tuning in domeinen zoals juridische, medische en technische gebieden.
Focus op betrouwbaarheid en gedrag
In tegenstelling tot Small 3.1 richt Small 3.2 zich op chirurgische verbeteringen van gedrag en betrouwbaarheid. Het is niet bedoeld om nieuwe mogelijkheden of architectuurwijzigingen in te voeren. In plaats daarvan fungeert het als een onderhoudsrelease: het opruimen van randgevallen in uitvoergeneratie, het aanscherpen van instructie-naleving en het verfijnen van systeempromptinteracties.
Wat is er veranderd tussen Small 3.2 en Small 3.1?
Benchmarks voor het opvolgen van instructies tonen een kleine maar meetbare verbetering. De interne nauwkeurigheid van Mistral steeg van 82,75% in Small 3.1 naar 84,78% in Small 3.2. Evenzo verbeterde de prestaties op externe datasets zoals Wildbench v2 en Arena Hard v2 aanzienlijk - Wildbench steeg met bijna 10 procentpunten, terwijl Arena Hard meer dan verdubbelde, van 19,56% naar 43,10%.
Interne metrics suggereren ook een vermindering van uitvoerherhaling. De frequentie van oneindige generaties daalde van 2,11% in Small 3.1 naar 1,29% in Small 3.2 - bijna een halvering. Dit maakt het model betrouwbaarder voor ontwikkelaars die applicaties bouwen die consistente, begrensde reacties vereisen.
Geavanceerde prestaties op tekst- en codebenchmarks
De prestaties op tekst- en codebenchmarks tonen een genuanceerder beeld. Small 3.2 vertoonde verbeteringen op HumanEval Plus (van 88,99% naar 92,90%), MBPP Pass@5 (van 74,63% naar 78,33%) en SimpleQA. Deze verbeteringen maken Small 3.2 een aantrekkelijke keuze voor ontwikkelaars die op zoek zijn naar een krachtig en betrouwbaar AI-model voor hun projecten.
Vertaald met ChatGPT gpt-4o-mini