Sakana introduceert nieuwe AI-architectuur: 'Continuous Thought Machines' voor een menselijke redeneerervaring
De in Tokio gevestigde kunstmatige intelligentie startup Sakana, mede opgericht door voormalige topwetenschappers van Google AI, waaronder Llion Jones en David Ha, heeft een nieuw type AI-modelarchitectuur gepresenteerd, genaamd Continuous Thought Machines (CTM). Deze CTM's zijn ontworpen om een nieuw tijdperk van AI-taalmodellen in te luiden die flexibeler zijn en een breder scala aan cognitieve taken kunnen uitvoeren — zoals het oplossen van complexe doolhoven of navigatietaken zonder positionele aanwijzingen of vooraf bestaande ruimtelijke representaties. Hierdoor komen ze dichterbij de manier waarop mensen redeneren over onbekende problemen.
In plaats van te vertrouwen op vaste, parallelle lagen die invoer allemaal tegelijk verwerken — zoals Transformer-modellen doen — ontvouwen CTM's de berekeningen over stappen binnen elke input/output-eenheid, bekend als een kunstmatige "neuron." Elke neuron in het model behoudt een korte geschiedenis van zijn eerdere activiteit en gebruikt dat geheugen om te beslissen wanneer hij opnieuw moet activeren. Deze toegevoegde interne toestand stelt CTM's in staat om de diepte en duur van hun redenering dynamisch aan te passen, afhankelijk van de complexiteit van de taak. Hierdoor is elke neuron veel informatiever en complexer dan in een typischer Transformer-model.
De startup heeft een paper gepubliceerd in het open access tijdschrift arXiv waarin haar werk wordt beschreven, evenals een microsite en GitHub-repository.
Hoe CTM's verschillen van op Transformer gebaseerde LLM's
De meeste moderne grote taalmodellen (LLM's) zijn nog steeds fundamenteel gebaseerd op de "Transformer"-architectuur die is uiteengezet in de baanbrekende paper van 2017 van Google Brain-onderzoekers, getiteld "Attention Is All You Need." Deze modellen gebruiken parallelle, vaste dieptelagen van kunstmatige neuronen om invoer in één keer te verwerken — of die invoer nu afkomstig is van gebruikersprompten tijdens de inferentie of gelabelde gegevens tijdens de training.
In tegenstelling tot deze modellen stellen CTM's elke kunstmatige neuron in staat om op zijn eigen interne tijdlijn te opereren, waarbij activatiebeslissingen worden genomen op basis van een kortetermijngeheugen van zijn vorige toestanden. Deze beslissingen ontvouwen zich over interne stappen die "ticks" worden genoemd, waardoor het model zijn redeneringsduur dynamisch kan aanpassen. Deze tijdgebaseerde architectuur stelt CTM's in staat om progressief te redeneren, waarbij ze aanpassen hoe lang en hoe diep ze berekeningen uitvoeren — afhankelijk van de complexiteit van de invoer.
Het aantal ticks verandert op basis van de ingebrachte informatie en kan meer of minder zijn, zelfs als de invoerinformatie identiek is, omdat elke neuron beslist hoeveel ticks hij moet doorlopen voordat hij een output biedt (of helemaal geen output biedt). Dit vertegenwoordigt zowel een technische als filosofische verschuiving van conventioneel deep learning, en beweegt naar een meer biologisch verankerd model. Sakana heeft CTM's gepresenteerd als een stap naar meer breinachtige intelligentie — systemen die zich in de loop van de tijd aanpassen, informatie flexibel verwerken en diepere interne berekeningen uitvoeren wanneer dat nodig is.
Sakana's doelstellingen voor mensachtige competentie
Sakana's doel is "om uiteindelijk niveaus van bekwaamheid te bereiken die concurreren met of de menselijke hersenen overtreffen." Dit streven naar menselijke intelligentie wordt nagestreefd door variabele, aangepaste tijdlijnen te gebruiken die meer intelligentie mogelijk maken.
De CTM is opgebouwd rond twee belangrijke mechanismen. Ten eerste houdt elke neuron in het model een korte "geschiedenis" of werkgeheugen bij van wanneer hij geactiveerd is en waarom, en gebruikt deze geschiedenis om te beslissen wanneer hij de volgende keer moet vuren. Ten tweede, neurale synchronisatie — hoe en wanneer groepen van de kunstmatige neuronen van een model "vuren" — helpt te bepalen wanneer de berekening moet doorgaan of stoppen.
Deze aanpak zorgt ervoor dat CTM's meer flexibiliteit bieden in de manier waarop ze redeneren en informatie verwerken. Door de timing van activatie aan te passen aan de complexiteit van de taak, kunnen ze effectiever en efficiënter functioneren in een breed scala aan toepassingen. Dit opent de deur naar nieuwe mogelijkheden in de ontwikkeling van AI-systemen die niet alleen meer kunnen leren, maar ook beter kunnen redeneren zoals mensen dat doen.
Vertaald met ChatGPT gpt-4o-mini