Ai2's MolmoAct-model ‘denkt in 3D’ en daagt Nvidia en Google uit in robotica AI

Ai2's MolmoAct-model ‘denkt in 3D’ en daagt Nvidia en Google uit in robotica AI

De fysieke AI, waar robotica en fundamentale modellen samenkomen, groeit snel met bedrijven zoals Nvidia, Google en Meta die onderzoek doen en experimenteren met de combinatie van grote taalmodellen (LLM's) en robots. Nieuwe onderzoeken van het Allen Institute for AI (Ai2) hebben als doel Nvidia en Google uit te dagen in de fysieke AI met de lancering van MolmoAct 7B, een nieuw open-source model dat robots in staat stelt om 'in de ruimte te redeneren'. MolmoAct, gebaseerd op Ai2's open source Molmo, 'denkt' in drie dimensies. Ook worden de trainingsgegevens vrijgegeven. Ai2 heeft een Apache 2.0-licentie voor het model, terwijl de datasets zijn gelicentieerd onder CC BY-4.0.

Ai2 classificeert MolmoAct als een Actie Redeneringsmodel, waarin fundamentale modellen redeneren over acties binnen een fysieke, 3D-ruimte. Dit betekent dat MolmoAct zijn redeneringscapaciteiten kan gebruiken om de fysieke wereld te begrijpen, te plannen hoe het ruimte inneemt en vervolgens die actie te ondernemen.

AI-schaalvergroting bereikt zijn limieten

Stroombeperkingen, stijgende tokenkosten en vertragingen bij inferentie herschikken de enterprise AI. Doe mee aan onze exclusieve salon om te ontdekken hoe topteams:

Veilig je plek om voorop te blijven.

Fysiek begrip

Aangezien robots in de fysieke wereld bestaan, beweert Ai2 dat MolmoAct robots helpt om hun omgeving op te nemen en betere beslissingen te nemen over hoe ze ermee kunnen interageren. "MolmoAct zou overal kunnen worden toegepast waar een machine over zijn fysieke omgeving moet redeneren," zei het bedrijf. "We denken voornamelijk aan een thuissituatie omdat daar de grootste uitdaging voor robotica ligt, omdat dingen daar onregelmatig en voortdurend veranderlijk zijn, maar MolmoAct kan overal worden toegepast."

MolmoAct kan de fysieke wereld begrijpen door "ruimte-gebonden perceptietokens" uit te geven, wat tokens zijn die zijn voorgetraind en geëxtraheerd met behulp van een vector-gequantiseerde variational autoencoder, of een model dat data-invoer, zoals video, omzet in tokens. Het bedrijf zei dat deze tokens verschillen van die gebruikt door VLAs omdat ze geen tekstinvoeren zijn.

Deze stellen MolmoAct in staat om ruimtelijk begrip te krijgen en geometrische structuren te coderen. Hiermee kan het model de afstand tussen objecten schatten. Zodra het een geschatte afstand heeft, voorspelt MolmoAct vervolgens een reeks "beeldruimte" waypoints of punten in het gebied waar het een pad naar kan instellen. Daarna begint het model specifieke acties uit te geven, zoals het laten zakken van een arm met een paar centimeter of het uitstrekken.

Prestaties en benchmarks

De onderzoekers van Ai2 zeiden dat ze in staat waren om het model zich aan te laten passen aan verschillende belichamingen (d.w.z. een mechanische arm of een humanoïde robot) "met slechts minimale fine-tuning". Benchmark-tests uitgevoerd door Ai2 toonden aan dat MolmoAct 7B een taak-succespercentage had van 72,1%, waarmee het modellen van Google, Microsoft en Nvidia overtrof.

Vertaald met ChatGPT gpt-4o-mini