DeepCoder biedt topcodeprestaties in efficiënt 14B open model

DeepCoder biedt topcodeprestaties in efficiënt 14B open model

Onderzoekers van Together AI en Agentica hebben DeepCoder-14B gelanceerd, een nieuw coderingsmodel dat indrukwekkende prestaties levert die vergelijkbaar zijn met toonaangevende commerciële modellen zoals OpenAI’s o3-mini. Dit model, dat is gebouwd bovenop DeepSeek-R1, biedt meer flexibiliteit om high-performance codegeneratie en redeneervermogen te integreren in praktische toepassingen. Belangrijk is dat de teams het model, de trainingsdata, code, logbestanden en systeemoptimalisaties volledig open-source hebben gemaakt, wat onderzoekers kan helpen hun werk te verbeteren en de voortgang te versnellen.

Concurrentievermogen in een kleiner pakket

De experimenten van het onderzoeksteam tonen aan dat DeepCoder-14B sterk presteert op verschillende uitdagende coderingsbenchmarks, waaronder LiveCodeBench (LCB), Codeforces en HumanEval+. "Ons model toont sterke prestaties op alle coderingsbenchmarks... vergelijkbaar met de prestaties van o3-mini (laag) en o1," schrijven de onderzoekers in een blogpost die het model beschrijft.

Opmerkelijk is dat, ondanks dat het model voornamelijk is getraind op coderingsopdrachten, het verbeterde wiskundig redeneervermogen vertoont, met een score van 73,8% op de AIME 2024 benchmark, een verbetering van 4,1% ten opzichte van het basismodel (DeepSeek-R1-Distill-Qwen-14B). Dit suggereert dat de redeneervaardigheden die zijn ontwikkeld door middel van reinforcement learning op code, effectief kunnen worden gegeneraliseerd naar andere domeinen.

Het meest opvallende aspect is dat dit prestatieniveau wordt bereikt met slechts 14 miljard parameters. Dit maakt DeepCoder aanzienlijk kleiner en mogelijk efficiënter in gebruik dan veel grensmodellen.

Innovaties die de prestaties van DeepCoder aandrijven

Bij de ontwikkeling van het model hebben de onderzoekers enkele van de belangrijkste uitdagingen in het trainen van coderingsmodellen met reinforcement learning (RL) opgelost. De eerste uitdaging was het samenstellen van de trainingsdata. Reinforcement learning vereist betrouwbare beloningssignalen die aangeven dat de output van het model correct is. Zoals de onderzoekers opmerken: "In tegenstelling tot wiskunde, waar overvloedig hoogwaardige, verifieerbare data gemakkelijk beschikbaar zijn op het internet, lijdt het coderingsdomein aan een relatieve schaarste van dergelijke data."

Om dit probleem aan te pakken, heeft het DeepCoder-team een strikte pijplijn geïmplementeerd die voorbeelden verzamelt uit verschillende datasets en deze filtert op geldigheid, complexiteit en duplicatie. Dit proces heeft 24.000 hoogwaardige problemen opgeleverd, wat een solide basis biedt voor effectieve RL-training.

Het team heeft ook een eenvoudige beloningsfunctie ontworpen die alleen een positief signaal geeft als de gegenereerde code alle geprobeerde eenheids testen voor het probleem binnen een specifieke tijdslimiet doorstaat. In combinatie met de hoogwaardige trainingsvoorbeelden voorkomt dit resultaatgerichte beloningssysteem dat het model trucs leert, zoals het afdrukken van gememoriseerde antwoorden voor publieke tests of optimaliseren voor eenvoudige randgevallen zonder het kernprobleem op te lossen.

De kerntrainingsalgoritme van het model is gebaseerd op Group Relative Policy Optimization (GRPO), een reinforcement learning-algoritme dat zeer succesvol is gebleken in DeepSeek-R1. Het team heeft echter verschillende aanpassingen gemaakt om het model verder te optimaliseren.

Vertaald met ChatGPT gpt-4o-mini