LLM's genereren 'vloeiende nonsens' bij redeneren buiten hun trainingsgebied

LLM's genereren 'vloeiende nonsens' bij redeneren buiten hun trainingsgebied

Een nieuwe studie van onderzoekers van Arizona State University suggereert dat de bekende "Chain-of-Thought" (CoT) redenering in Large Language Models (LLM's) meer een "broze mirage" is dan echte intelligentie. Dit onderzoek bouwt voort op een groeiend aantal studies die de diepgang van LLM-redenering in twijfel trekken, maar het neemt een unieke "data-distributie" benadering om te onderzoeken waar en waarom CoT systematisch faalt.

Cruciaal voor ontwikkelaars van toepassingen biedt het artikel niet alleen kritiek, maar ook duidelijke, praktische richtlijnen over hoe deze beperkingen in aanmerking kunnen worden genomen bij het ontwikkelen van LLM-gestuurde toepassingen, van teststrategieën tot de rol van fine-tuning.

De belofte en het probleem van Chain-of-Thought

CoT-prompting, waarbij een LLM gevraagd wordt om "stap voor stap te denken", heeft indrukwekkende resultaten opgeleverd bij complexe taken, wat leidt tot de perceptie dat modellen zich bezighouden met mensachtige inferentiële processen. Een nader onderzoek onthult echter vaak logische inconsistenties die deze opvatting uitdagen.

Diverse studies tonen aan dat LLM's vaak vertrouwen op oppervlakkige semantiek en aanwijzingen in plaats van op logische procedures. De modellen genereren plausibel klinkende logica door tokenpatronen te herhalen die ze tijdens de training hebben gezien. Desondanks faalt deze aanpak vaak bij taken die afwijken van bekende sjablonen of wanneer irrelevante informatie wordt geïntroduceerd.

Beperkingen van AI-schaalvergroting

De beperkingen van AI-schaalvergroting zoals energiebeperkingen, stijgende tokenkosten en vertragingen bij inferentie vormen een uitdaging voor enterprise AI. In dit licht is het belangrijk om te begrijpen hoe teams energie kunnen omzetten in een strategisch voordeel, efficiëntie in inferentie kunnen architecten voor echte doorvoerswinsten en concurrerende ROI kunnen ontsluiten met duurzame AI-systemen.

Ondanks deze waarnemingen beweren de onderzoekers van de nieuwe studie dat "een systematisch begrip van waarom en wanneer CoT-redenering faalt nog steeds een mysterie is," wat hun studie probeert te adresseren. Eerder onderzoek heeft al aangetoond dat LLM's moeite hebben om hun redeneringscapaciteiten te generaliseren. Zoals het artikel opmerkt, "toont theoretisch en empirisch bewijs aan dat CoT goed generaliseert alleen wanneer testinvoeren latente structuren delen met trainingsdata; anders daalt de prestatie scherp."

Een nieuwe kijk op LLM-redenering

De onderzoekers van ASU stellen een nieuwe benadering voor om dit probleem te bekijken: CoT is geen daad van redeneren, maar een verfijnde vorm van patroonherkenning, fundamenteel gebonden aan de statistische patronen in de trainingsdata. Ze stellen dat "het succes van CoT niet voortkomt uit de inherente redeneringscapaciteit van een model, maar uit het vermogen om conditioneel te generaliseren naar out-of-distribution (OOD) testgevallen die structureel vergelijkbaar zijn met in-distributie exemplaren." Met andere woorden, een LLM is goed in het toepassen van oude patronen op nieuwe gegevens die op elkaar lijken, maar niet in het oplossen van werkelijk nieuwe problemen.

Om deze hypothese te testen, hebben ze de mogelijkheden van CoT ontleed over drie dimensies van "distributieverschuiving" (veranderingen tussen de trainingsdata en de testdata). Eerst testten ze "taalgeneralizatie" om te zien of een model een geleerd redeneringsproces kon toepassen op een nieuw type taak. Ten tweede onderzochten ze "lengtegeneralizatie" om te bepalen of het om kon gaan met redeneringsketens die significant langer of korter zijn.

Vertaald met ChatGPT gpt-4o-mini