Nieuwe methode voor het trainen van betrouwbare AI-agenten: RAGEN
In 2025 werd door veel experts voorspeld dat het jaar van de AI-agenten zou zijn — taakgerichte AI-implementaties aangedreven door toonaangevende grote taal- en multimodale modellen (LLM's) zoals die van OpenAI, Anthropic, Google en DeepSeek. Tot nu toe blijven de meeste AI-agenten echter vastzitten in een soort corporate purgatory als experimentele pilots, volgens een recente peiling op het sociale netwerk X.
Maar er is hoop: een samenwerkend team van Northwestern University, Microsoft, Stanford en de Universiteit van Washington — inclusief een voormalige DeepSeek-onderzoeker genaamd Zihan Wang, die momenteel een PhD in computerwetenschappen aan Northwestern afrondt — heeft RAGEN geïntroduceerd, een nieuw systeem voor het trainen en evalueren van AI-agenten dat hen betrouwbaarder en minder kwetsbaar moet maken voor gebruik in de echte wereld.
De focus van RAGEN
In tegenstelling tot statische taken zoals wiskundige probleemoplossing of codegeneratie, richt RAGEN zich op multi-turn, interactieve omgevingen waarin agenten zich moeten aanpassen, onthouden en redeneren in het gezicht van onzekerheid. Het systeem is gebouwd op een aangepast RL-framework genaamd StarPO (State-Thinking-Actions-Reward Policy Optimization) en verkent hoe LLM's kunnen leren door ervaring in plaats van door memorisatie. De focus ligt op volledige besluitvormingstrajecten in plaats van slechts op één-stapsantwoorden.
Hoe StarPO werkt
StarPO opereert in twee onderling verbonden fasen: een rollout-fase waarin de LLM volledige interactiesequenties genereert die worden geleid door redenering, en een update-fase waarin het model wordt geoptimaliseerd met behulp van genormaliseerde cumulatieve beloningen. Deze structuur ondersteunt een stabielere en beter te interpreteren leercyclus in vergelijking met standaard beleidsoptimalisatiebenaderingen.
Implementatie en testen
De auteurs hebben het framework geïmplementeerd en getest met behulp van fijn afgestelde varianten van de Qwen-modellen van Alibaba, waaronder Qwen 1.5 en Qwen 2.5. Deze modellen dienden als de basis-LLM's voor alle experimenten en werden gekozen vanwege hun open gewichten en robuuste instructievolgende mogelijkheden. Deze beslissing maakte reproduceerbaarheid en consistente baselinevergelijkingen tussen symbolische taken mogelijk.
De Echo-val
Wang samenvatte de kernuitdaging in een veel gedeelde thread op X: Waarom valt jouw RL-training altijd in elkaar? Volgens het team genereren LLM-agenten aanvankelijk symbolische, goed onderbouwde antwoorden. Maar na verloop van tijd hebben RL-systemen de neiging om shortcuts te belonen, wat leidt tot repetitieve gedragingen die de algehele prestaties verminderen — een patroon dat ze de "Echo-val" noemen.
Deze regressie wordt gedreven door feedbackloops waarin bepaalde zinnen of strategieën vroegtijdig hoge beloningen opleveren, wat overmatig gebruik aanmoedigt en exploratie verstikt. Wang merkt op dat de symptomen meetbaar zijn: beloningsvariantiekliffen, gradientpieken en verdwijnende redeneerlijnen.
RAGEN-testomgevingen
Om deze gedragingen in een gecontroleerde omgeving te bestuderen, evalueert RAGEN agenten in drie symbolische omgevingen:
Elke omgeving is ontworpen om real-world prioren te minimaliseren en zich uitsluitend te richten op besluitvormingsstrategieën. Door deze gecontroleerde instellingen kunnen de onderzoekers diepere inzichten krijgen in hoe LLM's zich gedragen en hoe ze geoptimaliseerd kunnen worden voor praktische toepassingen.
Vertaald met ChatGPT gpt-4o-mini