Wanneer AI-redenering fout gaat: Microsoft Research onthult dat meer tokens meer problemen kunnen betekenen

Wanneer AI-redenering fout gaat: Microsoft Research onthult dat meer tokens meer problemen kunnen betekenen

Grote taalmodellen (LLM's) worden steeds beter in complexe redenering via "inference-time scaling", een set technieken die meer rekenkracht toekent tijdens de inferentie om antwoorden te genereren. Een recente studie van Microsoft Research onthult echter dat de effectiviteit van deze schaalsmethoden niet universeel is. Prestatieverbeteringen variëren aanzienlijk tussen verschillende modellen, taken en probleemcomplexiteiten.

De kernbevinding is dat simpelweg meer rekenkracht toepassen op een probleem tijdens de inferentie geen garantie biedt voor betere of efficiëntere resultaten. Deze bevindingen kunnen bedrijven helpen om beter inzicht te krijgen in kostenschommelingen en modelbetrouwbaarheid terwijl ze geavanceerde AI-redenering in hun toepassingen willen integreren.

Het testen van schaalsmethoden

Het team van Microsoft Research voerde een uitgebreide empirische analyse uit over negen state-of-the-art fundamentale modellen. Dit omvatte zowel "conventionele" modellen zoals GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro en Llama 3.1 405B, als modellen die specifiek zijn geoptimaliseerd voor verbeterde redenering door middel van inference-time scaling. Dit omvatte OpenAI's o1 en o3-mini, Anthropic's Claude 3.7 Sonnet, Google's Gemini 2 Flash Thinking, en DeepSeek R1.

Ze evalueerden deze modellen met behulp van drie verschillende benaderingen voor inference-time scaling:

Uitgebreide evaluatie

Deze benaderingen werden getest op acht uitdagende benchmarkdatasets die een breed scala aan taken bestrijken die profiteren van stap-voor-stap probleemoplossing: wiskunde en STEM-redenering (AIME, Omni-MATH, GPQA), kalenderplanning (BA-Calendar), NP-harde problemen (3SAT, TSP), navigatie (Maze) en ruimtelijke redenering (SpatialMap).

Verschillende benchmarks bevatten problemen met verschillende moeilijkheidsgraden, waardoor een genuanceerder inzicht mogelijk is in hoe schaalgedrag zich gedraagt naarmate problemen moeilijker worden.

"De beschikbaarheid van moeilijkheidstags voor Omni-MATH, TSP, 3SAT en BA-Calendar stelt ons in staat om te analyseren hoe nauwkeurigheid en tokenverbruik schalen met moeilijkheid in inference-time scaling, wat een perspectief is dat nog onderbelicht is," schreven de onderzoekers.

Vertaald met ChatGPT gpt-4o-mini