Onderzoekers waarschuwen voor 'catastrofale overtraining' in LLM's

Onderzoekers waarschuwen voor 'catastrofale overtraining' in LLM's

Een nieuwe academische studie uit topuniversiteiten in de westerse wereld en elders heeft het concept van 'Catastrofale Overtraining' geïntroduceerd, waarbij wordt aangetoond dat verlengde voorafgaande training eigenlijk taalsamenstellingen moeilijker maakt om te fine-tunen, wat uiteindelijk leidt tot een degradatie van hun prestaties.

De wet van afnemende rendement

De studie, 'Overtrained Language Models Are Harder to Fine-Tune', is gepubliceerd op arXiv en geleid door Jacob Mitchell Springer. De mede-auteurs zijn Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig en Aditi Raghunathan.

De schaal van afnemende rendement

Het onderzoek richt zich op een verbazingwekkende trend die wordt waargenomen in de moderne ontwikkeling van LLM's: terwijl modellen worden getraind op steeds uitgebreidere pools gegevens, licentie of geschrapt vanuit het web en voorgesteld aan een LLM als reeksen tokens of numeriek vertegenwoordigde concepten en ideeën, kan de toename van tokenaantal tijdens voorafgaande training leiden tot verminderd effect wanneer die modellen later worden fine-tuned voor specifieke taken.

Empirische evaluaties en theoretische analyses

Het team heeft een reeks empirische evaluaties en theoretische analyses uitgevoerd om de invloed van verlengde pre-training op modelaanpassingsvermogen te onderzoeken.

De belangrijkste bevindingen

Een van de bevindingen draait om AI2's open source OLMo-1B model.

Het onderzoek vergeleek twee versies van dit model: één getraind op 2,3 biljoen tokens en een ander op 3 biljoen tokens.

Hoewel het laatste model was getraind op 30% meer gegevens, presteerde het slechter na instructietuning. Bepaalde evaluaties toonden zelfs een degradatie van 2 tot 3 procent aan in de prestaties.

Inflectiepunten en afnemende rendement

Het onderzoek identificeert een 'inflectiepunt' in de voorafgaande training, waarbij extra training leidt tot afnemend of zelfs negatief rendement op fine-tuningresultaten.

Vooral van belang is dat dit threshold om 2,5 biljoen tokens was bereikt.

Een overvloed aan bewijs

Het team's onderzoek omvatte de analysering in real-world en gecontroleerde experimentele settingen. Zij testten het fenomeen op verschillende taken, waaronder instructietuning gebruikmakend van datasets zoals Anthropic-HH en TULU, alsook multimodale fine-tuning met behulp van het LLaVA-framework.

Consequenties

Het onderzoek concludeert dat de huidige aanpak van LLM-ontwikkeling gebaseerd is op een fundamentele misvatting: namelijk dat meer training leidt tot betere modellen. Het bepleit in plaats daarvan een aanpak die het belang erkent van een optimale en balanserende mate van voorafgaande training, waarbij de nadruk ligt op fine-tuning en aanpassing.

De weg naar verandering

Het onderzoek benadrukt dat dit resultaat niet alleen relevant is voor de LLM-gemeenschap maar ook omvatte de toepasbaarheid in andere domeinen van AI en machine learning. Het onderstreept de noodzaak van een fundamentele verschuiving in ons denken over taalsamenstellingen, waarbij we meer aandacht moeten besteden aan het optimaliseren van prestaties in fine-tuning en aanpassing.

Uitdagingen

Het onderzoek benadrukt dat de implementatie van deze resultaten niet zonder uitdagingen is. Het zal nodig hebben om de ontwikkeling van taalsamenstellingen opnieuw te definiëren, waarbij de nadruk wordt gelegd op fine-tuning en aanpassing in plaats van alleen maar voorafgaande training.

Conclusie

Het onderzoek 'Overtrained Language Models Are Harder to Fine-Tune' brengt een fundamentele aanname in de ontwikkeling van grote taalsamenstellingen op de schop, waarschuwend dat meer voorafgaande training niet altijd leidt tot betere modellen. Het onderzoek pleit ervoor om een meer evenwichtige en optimaliserende aanpak te nemen, die rekening houdt met de noodzaak van fine-tuning en aanpassing.

Vertaald met Ollama mannix/llama3-8b-ablitered-v3:latest