Meta's nieuwe wereldmodel stelt robots in staat om objecten te manipuleren in onbekende omgevingen
Hoewel grote taalmodellen (LLMs) tekst (en andere modaliteiten tot op zekere hoogte) onder de knie hebben, missen ze het fysieke "gezond verstand" om te opereren in dynamische, echte omgevingen. Dit heeft de inzet van AI in gebieden zoals productie en logistiek beperkt, waar begrip van oorzaak en gevolg cruciaal is.
Het nieuwste model van Meta, V-JEPA 2, zet een stap in de richting van het overbruggen van deze kloof door een wereldmodel te leren van video en fysieke interacties.
V-JEPA 2 kan helpen bij het creëren van AI-toepassingen die het voorspellen van uitkomsten en het plannen van acties in onvoorspelbare omgevingen met veel randgevallen vereisen. Deze aanpak kan een duidelijke weg bieden naar meer capabele robots en geavanceerde automatisering in fysieke omgevingen.
Hoe een ‘wereldmodel’ leert plannen
Mensen ontwikkelen vroeg in hun leven fysieke intuïtie door hun omgeving te observeren. Als je een bal ziet die wordt gegooid, weet je instinctief de baan ervan en kun je voorspellen waar hij zal landen. V-JEPA 2 leert een vergelijkbaar "wereldmodel", wat de interne simulatie van een AI-systeem is van hoe de fysieke wereld functioneert.
Dit model is opgebouwd uit drie kerncapaciteiten die essentieel zijn voor bedrijfsapplicaties: begrijpen wat er in een scène gebeurt, voorspellen hoe de scène zal veranderen op basis van een actie, en het plannen van een reeks acties om een specifiek doel te bereiken. Zoals Meta in zijn blog vermeldt, is de "langetermijnvisie dat wereldmodellen AI-agenten in staat zullen stellen om te plannen en te redeneren in de fysieke wereld."
De architectuur van het model, genaamd de Video Joint Embedding Predictive Architecture (V-JEPA), bestaat uit twee belangrijke onderdelen. Een "encoder" bekijkt een videoclips en condenseert deze tot een compacte numerieke samenvatting, bekend als een embedding. Deze embedding vangt de essentiële informatie over de objecten en hun relaties in de scène. Een tweede onderdeel, de "predictor", neemt deze samenvatting en stelt zich voor hoe de scène zal evolueren, waardoor een voorspelling wordt gegenereerd van hoe de volgende samenvatting eruit zal zien.
Deze architectuur is de nieuwste evolutie van het JEPA-raamwerk, dat voor het eerst werd toegepast op afbeeldingen met I-JEPA en nu naar video is gevorderd, wat een consistente aanpak laat zien voor het bouwen van wereldmodellen.
In tegenstelling tot generatieve AI-modellen die proberen de exacte kleur van elke pixel in een toekomstig frame te voorspellen — een rekenintensieve taak — opereert V-JEPA 2 in een abstracte ruimte. Het richt zich op het voorspellen van de hoog-niveau kenmerken van een scène, zoals de positie en baan van een object, in plaats van de textuur of achtergronddetails, waardoor het veel efficiënter is dan andere grotere modellen met slechts 1,2 miljard parameters.
Dit resulteert in lagere rekent kosten en maakt het geschikter voor inzet in echte omgevingen.
Leren uit observatie en actie
V-JEPA 2 wordt in twee fasen getraind. Eerst bouwt het zijn fundamentele begrip van de natuurkunde op door zelfgestuurd leren, waarbij het meer dan een miljoen uur aan niet-gelabelde internetvideo's bekijkt. Door simpelweg te observeren hoe objecten bewegen en reageren, leert het model de basisprincipes van interactie in de fysieke wereld.
Gedurende deze fase kan V-JEPA 2 patronen herkennen en de dynamiek van objecten in video vastleggen. Deze kennis vormt de basis voor de voorspellingen en plannen van de AI in onbekende situaties.
In de tweede fase van de training past V-JEPA 2 zijn verworven kennis toe in simulaties en real-world scenario's, waar het moet navigeren door complexe omgevingen en acties moet plannen op basis van eerdere observaties. Dit proces is cruciaal voor het ontwikkelen van robots en AI-systemen die in staat zijn om effectief te functioneren in de echte wereld, waar de omstandigheden vaak onvoorspelbaar zijn.
Met de vooruitgang van V-JEPA 2 en zijn wereldmodel, komt er een nieuw tijdperk aan voor robotica en AI, waarin machines niet alleen leren van gegevens, maar ook van hun omgeving en ervaringen. Dit opent de deur naar tal van nieuwe toepassingen in verschillende sectoren, van autonome voertuigen tot slimme fabrieken.
Vertaald met ChatGPT gpt-4o-mini