Voorbij ARC-AGI: GAIA en de zoektocht naar een echte intelligentiebenchmark

Voorbij ARC-AGI: GAIA en de zoektocht naar een echte intelligentiebenchmark

Intelligentie is alomtegenwoordig, maar de meting ervan lijkt subjectief. Op zijn best benaderen we de maatstaf ervan via tests en benchmarks. Denk aan toelatingsexamens voor colleges: elk jaar schrijven talloze studenten zich in, leren ze trucjes voor de voorbereiding en lopen ze soms weg met perfecte scores. Betekent een enkel getal, laten we zeggen 100%, dat degenen die dat hebben behaald dezelfde intelligentie delen — of dat ze op de een of andere manier hun intelligentie hebben gemaximaliseerd? Natuurlijk niet. Benchmarks zijn benaderingen, geen exacte metingen van iemands — of iets zijn — ware capaciteiten.

De generatieve AI-gemeenschap heeft lange tijd vertrouwd op benchmarks zoals MMLU (Massive Multitask Language Understanding) om modelcapaciteiten te evalueren via meerkeuzevragen over verschillende academische disciplines. Dit formaat maakt eenvoudige vergelijkingen mogelijk, maar slaagt er niet in om de intelligente capaciteiten echt vast te leggen.

Beide modellen, Claude 3.5 Sonnet en GPT-4.5, behalen bijvoorbeeld vergelijkbare scores op deze benchmark. Op papier suggereert dit gelijke capaciteiten. Toch weten mensen die met deze modellen werken dat er aanzienlijke verschillen zijn in hun prestaties in de echte wereld.

Wat betekent het om 'intelligentie' in AI te meten?

Na de release van de nieuwe ARC-AGI benchmark — een test die is ontworpen om modellen te stimuleren tot algemeen redeneren en creatief probleemoplossend vermogen — is er een hernieuwde discussie ontstaan over wat het betekent om "intelligentie" in AI te meten. Hoewel nog niet iedereen de ARC-AGI benchmark heeft getest, verwelkomt de industrie deze en andere inspanningen om testframeworks te evolueren. Elke benchmark heeft zijn waarde, en ARC-AGI is een veelbelovende stap in dat bredere gesprek.

Een andere opmerkelijke recente ontwikkeling in de evaluatie van AI is 'Humanity’s Last Exam', een uitgebreide benchmark die 3.000 peer-reviewed, meerstapsvragen bevat over verschillende disciplines. Hoewel deze test een ambitieuze poging vertegenwoordigt om AI-systemen uit te dagen op expert-niveau redeneren, tonen vroege resultaten snelle voortgang aan — met OpenAI dat reportedly een score van 26,6% behaalde binnen een maand na de release. Echter, zoals andere traditionele benchmarks, evalueert het voornamelijk kennis en redeneren in isolatie, zonder de praktische, toolgebruikende capaciteiten te testen die steeds crucialer worden voor AI-toepassingen in de echte wereld.

In één voorbeeld falen meerdere state-of-the-art modellen om het aantal “r”s in het woord aardbei correct te tellen. In een ander voorbeeld identificeren ze onterecht dat 3.8 kleiner is dan 3.1111. Dit soort mislukkingen — bij taken die zelfs een jong kind of een simpele rekenmachine zou kunnen oplossen — onthullen een mismatch tussen benchmark-gedreven vooruitgang en robuustheid in de echte wereld, en herinneren ons eraan dat intelligentie niet alleen gaat om het slagen voor examens, maar om betrouwbaar navigeren door alledaagse logica.

De nieuwe standaard voor het meten van AI-capaciteit

Naarmate modellen zich hebben ontwikkeld, hebben deze traditionele benchmarks hun beperkingen getoond — GPT-4 met tools behaalt slechts ongeveer 15% op complexere, real-world taken in de GAIA benchmark, ondanks indrukwekkende scores op meerkeuzevragen.

Deze kloof tussen benchmarkprestaties en praktische capaciteiten is steeds problematischer geworden. De GAIA benchmark is ontworpen om deze kloof te overbruggen door een meer holistische benadering van AI-evaluatie te bieden. Het richt zich niet alleen op kennis en redeneren, maar ook op de praktische toepassingen van AI in de echte wereld. Dit is cruciaal in een tijd waarin AI-systemen steeds vaker worden ingezet voor complexe taken die creativiteit en aanpassingsvermogen vereisen.

Daarom is het essentieel dat onderzoekers en ontwikkelaars zich blijven inzetten voor het verbeteren van evaluatiemethoden. Het doel is niet alleen om te meten hoe goed een model presteert op een specifieke test, maar ook om te begrijpen hoe deze modellen functioneren in verschillende contexten en situaties. Dit zal ons helpen om de ware potentieel van AI te ontgrendelen en de technologie te verbeteren voor gebruik in de echte wereld.

Vertaald met ChatGPT gpt-4o-mini