De ‘era van ervaring’ zal zelflerende AI-agenten op het web ontketenen – zo bereid je je voor
David Silver en Richard Sutton, twee gerenommeerde AI-wetenschappers, stellen in een recent paper dat kunstmatige intelligentie op het punt staat een nieuwe fase in te gaan, de 'Era van Ervaring'. In deze fase zullen AI-systemen steeds minder afhankelijk zijn van door mensen aangeleverde data en zichzelf verbeteren door gegevens te verzamelen uit en interactie te hebben met de wereld.
Hoewel het paper conceptueel en toekomstgericht is, heeft het directe implicaties voor bedrijven die willen bouwen met en voor toekomstige AI-agenten en -systemen.
De verwachtingen van AI-experts
Zowel Silver als Sutton zijn ervaren wetenschappers met een bewezen staat van dienst op het gebied van accurate voorspellingen over de toekomst van AI. De geldigheid van hun voorspellingen is vandaag de dag zichtbaar in de meest geavanceerde AI-systemen. In 2019 schreef Sutton, een pionier op het gebied van versterkend leren, het beroemde essay 'De Bittere Les', waarin hij betoogt dat de grootste vooruitgang op lange termijn in AI consequent voortkomt uit het benutten van grootschalige computationele middelen met algemene zoek- en leermethoden, in plaats van voornamelijk te vertrouwen op complexe, door mensen afgeleide domeinkennis.
David Silver, een senior wetenschapper bij DeepMind, was een belangrijke bijdrager aan AlphaGo, AlphaZero en AlphaStar, allemaal belangrijke prestaties op het gebied van diep versterkend leren. Hij was ook co-auteur van een paper in 2021 dat stelde dat versterkend leren en een goed ontworpen beloningssignaal voldoende zouden zijn om zeer geavanceerde AI-systemen te creëren.
De opkomst van grote taalmodellen
De meest geavanceerde grote taalmodellen (LLM's) maken gebruik van deze twee concepten. De golf van nieuwe LLM's die sinds GPT-3 de AI-scene heeft veroverd, heeft voornamelijk vertrouwd op het schalen van computationele middelen en data om enorme hoeveelheden kennis te internaliseren. De meest recente golf van redeneermodellen, zoals DeepSeek-R1, heeft aangetoond dat versterkend leren en een eenvoudig beloningssignaal voldoende zijn voor het leren van complexe redeneervaardigheden.
Wat is de era van ervaring?
De 'Era van Ervaring' bouwt voort op dezelfde concepten die Sutton en Silver in de afgelopen jaren hebben besproken en past deze aan op recente vooruitgangen in AI. De auteurs beweren dat het 'tempo van vooruitgang dat uitsluitend wordt aangestuurd door supervisie op basis van menselijke data, aantoonbaar afneemt, wat de noodzaak van een nieuwe aanpak aangeeft.'
En die aanpak vereist een nieuwe bron van data, die op een manier moet worden gegenereerd die zich voortdurend verbetert naarmate de agent sterker wordt. 'Dit kan worden bereikt door agents voortdurend te laten leren van hun eigen ervaringen, dat wil zeggen, data die door de agent wordt gegenereerd door interactie met zijn omgeving,' schrijven Sutton en Silver. Ze stellen dat uiteindelijk 'ervaring het dominante medium van verbetering zal worden en uiteindelijk de schaal van menselijke data die in de huidige systemen wordt gebruikt, zal overschaduwen.'
Doorbreken van de beperkingen van menselijke AI
Volgens de auteurs zullen toekomstige AI-systemen, naast het leren van hun eigen ervaringsdata, 'doorbreken wat de beperkingen zijn van mensgerichte AI-systemen' op vier dimensies:
De ontwikkelingen in de 'Era van Ervaring' vormen een spannende vooruitgang in de wereld van AI. Het stelt ons in staat te anticiperen op een toekomst waarin AI-agenten niet alleen reageren op menselijke input, maar ook zelfstandig leren en groeien door hun interacties met de wereld om hen heen.
Vertaald met ChatGPT gpt-4o-mini