Mengvormen van Recursies: Twee keer snellere inferentie – Zo implementeer je het

Mengvormen van Recursies: Twee keer snellere inferentie – Zo implementeer je het

Onderzoekers van KAIST AI en Mila hebben een nieuwe Transformer-architectuur geïntroduceerd die grote taalmodellen (LLM's) efficiënter maakt in geheugen- en rekenkracht. Deze architectuur, genaamd Mengvormen van Recursies (MoR), verbetert de nauwkeurigheid van modellen aanzienlijk en levert hogere doorvoersnelheden in vergelijking met traditionele transformers, zelfs wanneer ze beperkt worden door hetzelfde aantal parameters en rekenbudget.

De schaaluitdagingen van LLM's

De indrukwekkende mogelijkheden van de huidige LLM's zijn rechtstreeks verbonden met hun steeds groeiende omvang. Maar naarmate deze modellen groter worden, worden hun geheugeneisen en rekenbehoeften vaak onhoudbaar, waardoor zowel training als implementatie een uitdaging vormt voor organisaties buiten hyperscale datacenters. Dit heeft geleid tot een zoektocht naar efficiëntere ontwerpen.

Inspanningen om de efficiëntie van LLM's te verbeteren, hebben zich voornamelijk gericht op twee methoden: parameterdeling en adaptieve berekening. Technieken voor parameterdeling verminderen het totale aantal unieke parameters door gewichten opnieuw te gebruiken in verschillende delen van het model, waardoor de algehele rekencomplexiteit afneemt. Een voorbeeld hiervan is "layer tying", een techniek waarbij de gewichten van een model over verschillende lagen worden hergebruikt. Adaptieve berekeningsmethoden passen modellen aan zodat ze alleen zoveel inferentiebronnen gebruiken als nodig is. Bijvoorbeeld, "early exiting" wijst dynamisch rekencapaciteit toe door het model in staat te stellen om "simpelere" tokens vroeg in het netwerk te verwerken.

Het creëren van een architectuur die zowel parameter efficiëntie als adaptieve berekening effectief verenigt, blijft echter een uitdaging.

Hoe Mengvormen van Recursies werkt

Mengvormen van Recursies is een raamwerk dat parameterdeling combineert met adaptieve berekening om de hoge rekenvereisten van LLM's aan te pakken. Het bouwt voort op het concept van Recursieve Transformers, modellen die herhaaldelijk een set gedeelde lagen meerdere keren toepassen. In plaats van een diepe stapel unieke lagen, verdeelt een Recursieve Transformer het model in enkele "recursieblokken", elk met een gedeeld pool van parameters. Dit ontwerp maakt meer berekeningen mogelijk zonder de omvang van het model te vergroten.

MoR versterkt deze recursieve benadering met twee belangrijke componenten. De eerste is een lichtgewicht router die intelligent een specifieke recursiediepte aan elk token toewijst. Dit concept lijkt op het routeringsmechanisme in Mengvormen van Experts (MoE) modellen, waarbij een router tokens naar gespecialiseerde expertsystemen leidt. In MoR zijn de "experts" echter de verschillende recursiediepten, waardoor het model dynamisch kan kiezen hoeveel berekening op elk token moet worden toegepast. Het besluit hoe vaak een gedeeld blok van lagen moet worden toegepast op basis van de complexiteit van een token, of de vereiste "diepte van denken". Dit stuurt berekeningen alleen waar ze het meest nodig zijn, waardoor verspilde cycli op eenvoudig te verwerken onderdelen van de invoer worden vermeden.

Vertaald met ChatGPT gpt-4o-mini