Fijn-tuning versus in-context leren: Onderzoek biedt richtlijnen voor betere aanpassing van LLM's aan praktische taken

Fijn-tuning versus in-context leren: Onderzoek biedt richtlijnen voor betere aanpassing van LLM's aan praktische taken

Twee populaire benaderingen voor het aanpassen van grote taalmodellen (LLM's) voor specifieke taken zijn fijn-tuning en in-context leren (ICL). In een recent onderzoek hebben onderzoekers van Google DeepMind en de Stanford Universiteit de generalisatiecapaciteiten van deze twee methoden onderzocht. Ze ontdekten dat ICL een grotere generalisatiecapaciteit heeft, hoewel dit gepaard gaat met hogere rekenkosten tijdens de inferentie. Daarnaast stellen ze een nieuwe aanpak voor om het beste van beide werelden te combineren. De bevindingen kunnen ontwikkelaars helpen bij het maken van cruciale beslissingen bij het bouwen van LLM-toepassingen voor hun specifieke bedrijfsdata.

Fijn-tuning en in-context leren: Een overzicht

Fijn-tuning houdt in dat een voorgetraind LLM verder wordt getraind op een kleinere, gespecialiseerde dataset. Dit past de interne parameters van het model aan om het nieuwe kennis of vaardigheden bij te brengen. In-context leren, aan de andere kant, verandert de onderliggende parameters van het model niet. In plaats daarvan begeleidt het LLM door voorbeelden van de gewenste taak direct binnen de invoerprompt te geven. Het model gebruikt deze voorbeelden vervolgens om te begrijpen hoe het een nieuwe, vergelijkbare vraag moet aanpakken.

De onderzoekers hadden als doel om systematisch te vergelijken hoe goed modellen generaliseren naar nieuwe taken met behulp van deze twee methoden. Ze construerden "gecontroleerde synthetische datasets van feitelijke kennis" met complexe, zelfconsistente structuren, zoals denkbeeldige stambomen of hiërarchieën van fictieve concepten.

Methodologie van het onderzoek

Om ervoor te zorgen dat ze de leercapaciteit van het model testten, vervingen ze alle zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden door nonsens-termen, zodat er geen overlap was met de data die de LLM's tijdens de voortraining mogelijk hadden tegengekomen.

De modellen werden vervolgens getest op verschillende generalisatie-uitdagingen. Een van de tests betrof eenvoudige omkeringen. Als een model was getraind dat "femp gevaarlijker is dan glon," kon het dan correct afleiden dat "glon minder gevaarlijk is dan femp"? Een andere test richtte zich op eenvoudige syllogismen, een vorm van logische deductie. Als gezegd werd "Alle glon zijn yomp" en "Alle troff zijn glon," kon het model dan afleiden dat "Alle troff yomp zijn"? Ze gebruikten ook een complexere "semantische structuur benchmark" met een rijkere hiërarchie van deze verzonnen feiten om meer genuanceerd begrip te testen.

Resultaten en implicaties

Onze resultaten zijn voornamelijk gericht op instellingen over hoe modellen generaliseren naar deducties en omkeringen vanuit fijn-tuning op nieuwe kennisstructuren, met duidelijke implicaties voor situaties waarin fijn-tuning wordt gebruikt om een model aan te passen aan bedrijfsspecifieke en vertrouwelijke informatie," aldus Andrew Lampinen, onderzoekswetenschapper bij Google DeepMind en hoofdauteur van het artikel.

Om de prestaties te evalueren, hebben de onderzoekers Gemini 1.5 Flash fijn-getuned op deze datasets. Voor ICL voeden ze de volledige trainingsdataset (of grote subsets) als context aan een instructie-geoptimaliseerd model voordat ze de testvragen stelden.

Vergelijking van prestaties

De resultaten toonden consistent aan dat, in data-gematchte instellingen, ICL leidde tot betere generalisatie dan standaard fijn-tuning. Modellen die ICL gebruikten, waren over het algemeen beter in taken zoals het omkeren van relaties of het maken van logische deducties op basis van de gegeven context. Voorgetrainde modellen, zonder fijn-tuning of ICL, presteerden slecht, wat de nieuwheid van de testdata aangeeft.

Een van de belangrijkste afwegingen om te overwegen is dat, terwijl ICL geen fijn-tuning vereist, het wel hogere rekenkosten met zich meebrengt tijdens de inferentie. Dit maakt het noodzakelijk om te bepalen welke aanpak het meest geschikt is voor specifieke toepassingen en bedrijfsbehoeften. Het onderzoek benadrukt de waarde van het begrijpen van de sterke en zwakke punten van elk van deze technieken bij het ontwikkelen van op maat gemaakte LLM-oplossingen.

Vertaald met ChatGPT gpt-4o-mini