Nieuwe studie onthult hoe LLM's hun vertrouwen verliezen onder druk

Nieuwe studie onthult hoe LLM's hun vertrouwen verliezen onder druk

Een nieuwe studie van onderzoekers van Google DeepMind en University College London onthult hoe grote taalmodellen (LLM's) hun antwoorden vormen, behouden en het vertrouwen erin verliezen. De bevindingen tonen opvallende overeenkomsten tussen de cognitieve biases van LLM's en mensen, terwijl ze ook duidelijke verschillen benadrukken.

Het onderzoek laat zien dat LLM's soms overconfident zijn in hun eigen antwoorden, maar dat ze die zekerheid snel verliezen en van gedachten veranderen wanneer ze worden geconfronteerd met een tegenargument, zelfs als dat tegenargument onjuist is. Het begrijpen van de nuances van dit gedrag kan directe gevolgen hebben voor hoe je LLM-toepassingen bouwt, vooral conversatieinterfaces die meerdere uitwisselingen omvatten.

Het testen van vertrouwen in LLM's

Een cruciale factor bij de veilige inzet van LLM's is dat hun antwoorden vergezeld gaan van een betrouwbare mate van vertrouwen (de waarschijnlijkheid die het model aan het antwoord toekent). Hoewel we weten dat LLM's deze vertrouwen scores kunnen produceren, is de mate waarin ze deze kunnen gebruiken om adaptief gedrag te sturen slecht gekarakteriseerd. Er zijn ook empirische aanwijzingen dat LLM's in eerste instantie overconfident kunnen zijn in hun antwoord, maar ook zeer gevoelig zijn voor kritiek en snel onderconfident worden in diezelfde keuze.

Om dit te onderzoeken, ontwikkelden de onderzoekers een gecontroleerd experiment om te testen hoe LLM's hun vertrouwen bijwerken en besluiten of ze hun antwoorden moeten veranderen wanneer ze externe adviezen ontvangen. In het experiment kreeg een 'antwoordende LLM' eerst een vraag met twee keuzemogelijkheden, zoals het identificeren van de juiste breedtegraad voor een stad uit twee opties. Na het maken van zijn eerste keuze, ontving de LLM advies van een fictieve 'advies LLM'. Dit advies kwam met een expliciete nauwkeurigheidsbeoordeling (bijvoorbeeld: 'Deze advies LLM is 70% nauwkeurig') en zou ofwel instemmen met, zich verzetten tegen of neutraal blijven over de oorspronkelijke keuze van de antwoordende LLM. Ten slotte werd de antwoordende LLM gevraagd om zijn definitieve keuze te maken.

De impact van zichtbaarheid op beslissingen

Een belangrijk onderdeel van het experiment was het controleren of het eigen oorspronkelijke antwoord van de LLM zichtbaar was tijdens de tweede, definitieve beslissing. In sommige gevallen was het antwoord zichtbaar, en in andere gevallen was het verborgen. Deze unieke opzet, die onmogelijk te repliceren is met menselijke deelnemers die hun eerdere keuzes niet eenvoudig kunnen vergeten, stelde de onderzoekers in staat om te isoleren hoe het geheugen van een eerdere beslissing het huidige vertrouwen beïnvloedt.

Een basislijnconditie, waarbij het oorspronkelijke antwoord verborgen was en het advies neutraal, stelde vast hoeveel een LLM's antwoord zou kunnen veranderen slechts vanwege willekeurige variatie in de verwerking van het model. De analyse richtte zich op hoe het vertrouwen van de LLM in zijn oorspronkelijke keuze veranderde tussen de eerste en tweede beurt, wat een duidelijk beeld gaf van hoe de initiële overtuiging, of eerdere beslissing, een 'verandering van gedachten' in het model beïnvloedt.

Overconfidence en onderconfidence

De onderzoekers onderzochten eerst hoe de zichtbaarheid van het eigen antwoord van de LLM zijn tendens om van gedachten te veranderen beïnvloedde. Dit hielp hen te begrijpen hoe en wanneer LLM's hun vertrouwen verliezen in hun eigen antwoorden. De resultaten van het onderzoek maken duidelijk dat hoewel LLM's op bepaalde momenten zeer zeker van hun zaak kunnen zijn, ze ook kwetsbaar zijn voor externe invloeden die hun besluitvorming kunnen verstoren. Dit heeft belangrijke implicaties voor de ontwikkeling van toepassingen die afhankelijk zijn van LLM's, vooral in situaties waarin nauwkeurigheid en consistentie essentieel zijn.

Conclusies en toekomstperspectieven

De bevindingen van dit onderzoek benadrukken de noodzaak om het gedrag van LLM's beter te begrijpen, vooral in situaties waarin deze modellen worden gebruikt voor interactie met mensen. Het vermogen van LLM's om hun vertrouwen te verliezen en van gedachten te veranderen onder druk kan gevolgen hebben voor hun effectiviteit in real-world toepassingen. Toekomstig onderzoek kan zich richten op het verbeteren van de stabiliteit van deze modellen, zodat ze minder vatbaar zijn voor externe kritiek en meer consistente resultaten kunnen leveren. Dit is cruciaal voor de verdere integratie van AI in ons dagelijks leven en de ontwikkeling van betrouwbare technologieën die ons kunnen ondersteunen in verschillende domeinen.

Vertaald met ChatGPT gpt-4o-mini