Een nieuw paradigma voor AI: Hoe 'denken als optimalisatie' leidt tot betere algemene modellen
Onderzoekers van de Universiteit van Illinois Urbana-Champaign en de Universiteit van Virginia hebben een nieuwe modelarchitectuur ontwikkeld die zou kunnen leiden tot robuustere AI-systemen met krachtigere redeneervaardigheden. Deze architectuur, bekend als een energie-gebaseerde transformer (EBT), toont een natuurlijke capaciteit voor inferentietijd-schaalvergroting om complexe problemen op te lossen. Voor bedrijven kan dit resulteren in kosteneffectieve AI-toepassingen die zich kunnen generaliseren naar nieuwe situaties zonder de noodzaak voor gespecialiseerde, fijn afgestelde modellen.
De uitdaging van systeem 2 denken
In de psychologie wordt menselijk denken vaak onderverdeeld in twee modi: systeem 1, dat snel en intuitief is, en systeem 2, dat langzaam, weloverwogen en analytisch is. Huidige grote taalmodellen (LLM's) excelleren in taken van systeem 1-stijl, maar de AI-industrie richt zich steeds meer op het mogelijk maken van systeem 2 denken om meer complexe redeneeruitdagingen aan te pakken.
Redeneermodellen gebruiken verschillende technieken voor inferentietijd-schaalvergroting om hun prestaties op moeilijke problemen te verbeteren. Een populaire methode is versterkend leren (RL), gebruikt in modellen zoals DeepSeek-R1 en OpenAI's o-series modellen, waarbij de AI wordt beloond voor het produceren van redeneertokens totdat het het juiste antwoord bereikt. Een andere benadering, vaak best-of-n genoemd, houdt in dat meerdere potentiële antwoorden worden gegenereerd en een verificatiemechanisme wordt gebruikt om het beste antwoord te selecteren.
Echter, deze methoden hebben aanzienlijke nadelen. Ze zijn vaak beperkt tot een smal scala van gemakkelijk verifieerbare problemen, zoals wiskunde en coderen, en kunnen de prestaties op andere taken zoals creatief schrijven verslechteren. Bovendien suggereren recente aanwijzingen dat RL-gebaseerde benaderingen modellen misschien geen nieuwe redeneervaardigheden aanleren, maar hen in plaats daarvan alleen waarschijnlijker maken om succesvolle redeneerpatronen die ze al kennen te gebruiken. Dit beperkt hun vermogen om problemen op te lossen die echte exploratie vereisen en buiten hun trainingsregime vallen.
Energie-gebaseerde modellen (EBM)
De architectuur stelt een andere benadering voor op basis van een klasse modellen die bekend staan als energie-gebaseerde modellen (EBM's). Het kernidee is eenvoudig: in plaats van direct een antwoord te genereren, leert het model een "energiefunctie" die fungeert als een verifier. Deze functie neemt een invoer (zoals een prompt) en een kandidaatvoorspelling en kent hier een waarde, of "energie", aan toe. Een lage energiewaarde duidt op hoge compatibiliteit, wat betekent dat de voorspelling goed aansluit bij de invoer, terwijl een hoge energiewaarde een slechte match aangeeft.
Toegepast op AI-redenering, stellen de onderzoekers in een paper voor dat ontwikkelaars "denken moeten beschouwen als een optimalisatieprocedure ten opzichte van een geleerde verifier, die de compatibiliteit (onnormeerde waarschijnlijkheid) tussen een invoer en kandidaatvoorspelling beoordeelt." Het proces begint met een willekeurige voorspelling, die vervolgens geleidelijk wordt verfijnd door de energiewaarde te minimaliseren en de ruimte van mogelijke oplossingen te verkennen totdat een optimaal antwoord is bereikt.
Vertaald met ChatGPT gpt-4o-mini