Vergeet data-labeling: Tencent’s R-Zero toont aan hoe LLM's zichzelf kunnen trainen
Een nieuw trainingsframework, ontwikkeld door onderzoekers van Tencent AI Lab en Washington University in St. Louis, stelt grote taalmodellen (LLM's) in staat om zichzelf te verbeteren zonder dat er menselijke gelabelde data nodig is. Deze techniek, genaamd R-Zero, maakt gebruik van versterkend leren om zijn eigen trainingsdata vanaf nul te genereren, waarmee een van de belangrijkste knelpunten in het creëren van zelf-evoluerende AI-systemen wordt aangepakt. R-Zero werkt door twee onafhankelijke modellen samen te laten evolueren door elkaar uit te dagen en met elkaar te interageren.
Experimenten tonen aan dat R-Zero de redeneercapaciteiten van verschillende LLM's aanzienlijk verbetert, wat de complexiteit en kosten van het trainen van geavanceerde AI kan verlagen. Voor bedrijven kan deze aanpak de ontwikkeling van gespecialiseerde modellen voor complexe redeneertaken versnellen zonder de hoge kosten van het cureren van gelabelde datasets.
De uitdaging van zelf-evoluerende LLM's
Het idee achter zelf-evoluerende LLM's is om AI-systemen te creëren die autonoom taken kunnen genereren, verfijnen en leren van hun eigen ervaringen. Dit biedt een schaalbare weg naar intelligentere en capabelere AI. Een grote uitdaging is echter dat het trainen van deze modellen grote hoeveelheden hoogwaardige taken en labels vereist, die als supervisiesignalen dienen voor de AI om van te leren.
Vertrouwen op menselijke annotatoren om deze data te creëren is niet alleen kostbaar en traag, maar creëert ook een fundamenteel knelpunt. Het beperkt effectief de potentiële mogelijkheden van een AI tot wat mensen het kunnen leren. Om dit aan te pakken, hebben onderzoekers labelvrije methoden ontwikkeld die beloningssignalen rechtstreeks afleiden van de eigen outputs van een model, bijvoorbeeld door de vertrouwensniveaus in een antwoord te meten. Hoewel deze methoden de noodzaak voor expliciete labels elimineren, blijven ze afhankelijk van een vooraf bestaande set taken, waardoor hun toepasbaarheid in echt zelf-evoluerende scenario's wordt beperkt.
Andere benaderingen
Andere benaderingen omvatten het laten genereren van eigen taken door modellen om van te leren. Echter, in domeinen zoals open-ended redeneren, waar er geen eenvoudige manier is om de juistheid te controleren (zoals bij een code-executor), is het waarborgen van de kwaliteit van deze zelfgegenereerde data een aanzienlijke uitdaging.
Hoe R-Zero werkt
R-Zero is een framework dat is ontworpen om redeneermodellen te trainen die kunnen evolueren zonder externe data. Het proces begint met een enkel basismodel, dat wordt opgesplitst in twee rollen: een "Challenger" en een "Solver." Deze twee modellen worden onafhankelijk geoptimaliseerd, maar evolueren samen via een continue cyclus van interactie.
Het doel van de Challenger is om nieuwe taken te creëren die net op de grens liggen van de huidige mogelijkheden van de Solver, niet te gemakkelijk en niet onmogelijk. De Solver wordt op zijn beurt beloond voor het oplossen van deze steeds complexere taken. In geschreven opmerkingen aan VentureBeat legde Chengsong Huang, co-auteur van het artikel en promovendus aan Washington University in St. Louis, uit dat deze dynamiek cruciaal is omdat het genereren van vragen van hoge kwaliteit vaak ingewikkelder is dan het vinden van de antwoorden.
Vertaald met ChatGPT gpt-4o-mini