Nieuwe AI-architectuur levert 100x snellere redenering dan LLM's met slechts 1.000 trainingsvoorbeelden
Het Singaporese AI-startup Sapient Intelligence heeft een nieuwe AI-architectuur ontwikkeld die in staat is om grote taalmodellen (LLM's) op complexe redeneringstaken te evenaren en in sommige gevallen zelfs aanzienlijk te overtreffen. Dit alles terwijl de architectuur veel kleiner en data-efficiënter is.
De architectuur, bekend als het Hierarchical Reasoning Model (HRM), is geïnspireerd op de manier waarop de menselijke hersenen verschillende systemen gebruiken voor langzame, doordachte planning en snelle, intuïtieve berekeningen. Het model behaalt indrukwekkende resultaten met een fractie van de data en het geheugen dat vandaag de dag door LLM's wordt vereist. Deze efficiëntie kan belangrijke implicaties hebben voor praktische toepassingen van enterprise AI, waar data schaars is en computermiddelen beperkt zijn.
De beperkingen van chain-of-thought redenering
Bij complexe problemen vertrouwen huidige LLM's grotendeels op chain-of-thought (CoT) prompting, waarbij problemen worden opgedeeld in tussenliggende tekstgebaseerde stappen. Dit dwingt het model ertoe om 'hardop te denken' terwijl het naar een oplossing toewerkt.
Hoewel CoT de redeneringscapaciteiten van LLM's heeft verbeterd, heeft het fundamentele beperkingen. In hun onderzoek stellen de onderzoekers van Sapient Intelligence dat "CoT voor redenering een kruk is, geen bevredigende oplossing. Het vertrouwt op broze, door mensen gedefinieerde decomposities waarbij een enkele misstap of een verkeerde volgorde van de stappen het redeneringsproces volledig kan ondermijnen."
De afhankelijkheid van expliciete taal
Deze afhankelijkheid van het genereren van expliciete taal bindt de redenering van het model aan het token-niveau. Dit vereist vaak enorme hoeveelheden trainingsdata en leidt tot lange, trage reacties. Deze aanpak negeert ook het soort 'latente redenering' dat intern plaatsvindt, zonder expliciet in taal te worden verwoord.
Zoals de onderzoekers opmerken: "Een efficiëntere aanpak is nodig om deze data-eisen te minimaliseren."
Een hiërarchische benadering geïnspireerd door de hersenen
Om verder te gaan dan CoT, onderzochten de onderzoekers 'latente redenering', waarbij het model in plaats van 'denktokens' te genereren, redeneert in zijn interne, abstracte representatie van het probleem. Dit sluit beter aan bij hoe mensen denken; zoals het artikel stelt, "de hersenen behouden lange, coherente ketens van redenering met opmerkelijke efficiëntie in een latente ruimte, zonder constante vertaling terug naar taal."
Echter, het bereiken van dit niveau van diepe, interne redenering in AI is uitdagend. Gewoon meer lagen stapelen in een deep learning-model leidt vaak tot een 'vervangingsgradient'-probleem, waarbij leersignalen verzwakken over de lagen heen, waardoor training ineffectief wordt. Alternatieve, terugkerende architecturen die over berekeningen heen lopen kunnen lijden aan 'vroege convergentie', waarbij het model te snel op een oplossing komt zonder het probleem volledig te verkennen.
Een oplossing uit de neurowetenschappen
Op zoek naar een betere aanpak wendden het team van Sapient zich tot de neurowetenschappen voor een oplossing. "De menselijke hersenen bieden een complexe structuur die ons in staat stelt om op een efficiënte manier te redeneren. Dit model kan de kracht van menselijke redenering repliceren door gebruik te maken van hiërarchische structuren die ons helpen om met minder data effectievere resultaten te bereiken."
Deze innovatieve benadering zou niet alleen de snelheid van AI-systemen kunnen verhogen, maar ook hun vermogen om te functioneren in situaties waar data beperkt is. Dit opent de deur naar veelbelovende toepassingen in verschillende sectoren, van gezondheidszorg tot financiën, waar snelle en nauwkeurige beslissingen cruciaal zijn.
De toekomst van AI met HRM
Met de introductie van het Hierarchical Reasoning Model staat de AI-technologie aan de vooravond van een nieuw tijdperk. De mogelijkheid om sneller en efficiënter te redeneren met minder data zou de manier waarop bedrijven AI inzetten en integreren in hun werkprocessen kunnen transformeren.
De toekomst van AI lijkt veelbelovend, en met de voortdurende ontwikkelingen in deze ruimte kunnen we verwachten dat AI-systemen steeds slimmer en capabeler worden. De impact daarvan op de samenleving en de bedrijfswereld zal ongetwijfeld enorm zijn, en het is belangrijk dat we deze veranderingen blijven volgen en begrijpen.
Vertaald met ChatGPT gpt-4o-mini