Hoeveel informatie onthouden LLM's werkelijk? Nu weten we het dankzij Meta, Google, Nvidia en Cornell

Hoeveel informatie onthouden LLM's werkelijk? Nu weten we het dankzij Meta, Google, Nvidia en Cornell

De meeste mensen die geïnteresseerd zijn in generatieve AI weten waarschijnlijk al dat Large Language Models (LLM's) — zoals die achter ChatGPT, Claude van Anthropic en Google’s Gemini — worden getraind op enorme datasets: triljoenen woorden afkomstig van websites, boeken, codebases en steeds vaker ook andere media zoals afbeeldingen, audio en video. Maar waarom is dit zo belangrijk?

LLM's ontwikkelen vanuit deze data een statistisch, gegeneraliseerd begrip van taal, de patronen ervan en de wereld — gecodeerd in de vorm van miljarden parameters, of ‘instellingen’, in een netwerk van kunstmatige neuronen (dit zijn wiskundige functies die invoergegevens omzetten in outputsignalen).

Hoe LLM's patronen leren

Door blootstelling aan al deze trainingsdata leren LLM's patronen te detecteren en te generaliseren die worden weerspiegeld in de parameters van hun neuronen. Bijvoorbeeld, het woord “appel” verschijnt vaak in de buurt van termen die verband houden met voedsel, fruit of bomen, en soms ook met computers. Het model pikt op dat appels rood, groen of geel kunnen zijn, of zelfs andere kleuren als ze rot of zeldzaam zijn, dat ze in het Engels worden gespeld als “a-p-p-l-e” en dat ze eetbaar zijn. Deze statistische kennis beïnvloedt hoe het model reageert wanneer een gebruiker een prompt invoert — het vormt de output die het genereert op basis van de associaties die het ‘heeft geleerd’ van de trainingsdata.

De grote vraag: onthouden of generaliseren?

Een grote vraag — zelfs onder AI-onderzoekers — blijft: hoeveel van de trainingsdata van een LLM wordt gebruikt om *gegeneraliseerde* representaties van concepten op te bouwen, en hoeveel wordt daarentegen *woordelijk* onthouden of opgeslagen op een manier die identiek of bijna identiek is aan de oorspronkelijke data?

Dit is belangrijk, niet alleen om beter te begrijpen hoe LLM's werken — en wanneer ze fout gaan — maar ook omdat modelleveranciers zich moeten verdedigen in rechtszaken over inbreuk op auteursrechten die zijn aangespannen door datacreators en -eigenaren, zoals artiesten en platenlabels. Als LLM's worden aangetoond dat ze significante delen van hun trainingsdata letterlijk reproduceren, zouden rechtbanken eerder geneigd kunnen zijn om aan de kant van de eisers te staan die beweren dat de modellen onrechtmatig beschermd materiaal hebben gekopieerd. Als dat niet het geval is — als de modellen worden ontdekt dat ze outputs genereren op basis van gegeneraliseerde patronen in plaats van exacte replicatie — kunnen ontwikkelaars mogelijk doorgaan met het verzamelen en trainen op auteursrechtelijk beschermde data onder bestaande juridische verdedigingen zoals ‘fair use’.

Een nieuwe studie onthult de waarheid

Nu hebben we eindelijk een antwoord op de vraag hoeveel LLM's onthouden versus generaliseren: een nieuwe studie die deze week is vrijgegeven door onderzoekers van Meta, Google DeepMind, Cornell University en NVIDIA, toont aan dat **GPT-achtige modellen een beperkte geheugen capaciteit hebben van ongeveer 3,6 bits per parameter**.

Om te begrijpen wat 3,6 bits in de praktijk betekent:

Dit aantal is modelonafhankelijk binnen redelijke architectonische variaties: verschillende dieptes, breedtes en precisies produceerden vergelijkbare resultaten. De schatting bleef constant over modelgroottes en zelfs precisieniveaus, waarbij modellen met volledige precisie iets hogere waarden bereikten (tot 3,83 bits/parameter).

Vertaald met ChatGPT gpt-4o-mini