Indrukwekkende Doorbraak: De 200% Snellere DeepSeek R1-0528 van TNG Technology Consulting
Het is iets meer dan een maand geleden dat de Chinese AI-startup DeepSeek, een dochteronderneming van het in Hongkong gevestigde High-Flyer Capital Management, de nieuwste versie van zijn populaire open-source model DeepSeek, R1-0528, lanceerde.
Net als zijn voorganger, DeepSeek-R1, dat de AI- en wereldwijde zakelijke gemeenschappen verraste met de lage kosten van training en de uitstekende prestaties op redeneertaken, is R1-0528 al in gebruik genomen en aangepast door andere AI-laboratoria en ontwikkelaars. Dit is grotendeels te danken aan de royale Apache 2.0-licentie die het model beschikbaar stelt voor ontwikkelaars en bedrijven zonder kosten.
Een Nieuwe Innovatie van TNG Technology Consulting
Deze week introduceerde het 24-jarige Duitse bedrijf TNG Technology Consulting GmbH een dergelijke aanpassing: DeepSeek-TNG R1T2 Chimera, het nieuwste model in zijn Chimera-grote taalmodel (LLM) familie. R1T2 biedt een opmerkelijke verbetering in efficiëntie en snelheid, met scores die meer dan 90% van de intelligentie benchmark scores van R1-0528 behalen, terwijl het antwoorden genereert met minder dan 40% van de output token count van R1-0528.
Dit betekent dat het kortere antwoorden produceert, wat direct resulteert in snellere inferentie en lagere rekenkosten. Op de modelkaart die TNG heeft vrijgegeven voor zijn nieuwe R1T2 op de AI-code deelgemeenschap Hugging Face, stelt het bedrijf dat het “ongeveer 20% sneller is dan de reguliere R1” (de versie die in januari werd uitgebracht) “en meer dan twee keer zo snel als R1-0528” (de officiële update van DeepSeek in mei).
Positieve Reacties uit de AI-gemeenschap
De reacties uit de AI-ontwikkelaarsgemeenschap zijn al buitengewoon positief. “Wauw! DeepSeek R1T2 – 200% sneller dan R1-0528 & 20% sneller dan R1,” schreef Vaibhav (VB) Srivastav, een senior leider bij Hugging Face, op X. “Significantly beter dan R1 op GPQA & AIME 24, gemaakt via Assembly of Experts met DS V3, R1 & R1-0528 — en het heeft een MIT-licentie, beschikbaar op Hugging Face.”
De Assembly-of-Experts Methode
Deze prestatie is mogelijk gemaakt door de Assembly-of-Experts (AoE) methode van TNG — een techniek voor het bouwen van LLMs door selectief de gewichtstensors (interne parameters) van meerdere voorgetrainde modellen te combineren. Dit werd door TNG beschreven in een paper dat in mei werd gepubliceerd op arXiv, het online tijdschrift zonder peer review.
R1T2, als opvolger van de oorspronkelijke R1T Chimera, introduceert een nieuwe “Tri-Mind” configuratie die drie oudermodellen integreert: DeepSeek-R1-0528, DeepSeek-R1 en DeepSeek-V3-0324. Het resultaat is een model dat is ontworpen om een hoge redeneercapaciteit te behouden terwijl de inferentiekosten aanzienlijk worden verlaagd.
Geen Verdere Fijnstelling of Hertraining
R1T2 is gebouwd zonder verdere fijnstelling of hertraining. Het erfde de redeneerkracht van R1-0528, de gestructureerde denkpatronen van R1 en het beknopte, instructie-georiënteerde gedrag van V3-0324 — wat zorgt voor een efficiënter, maar toch krachtig model voor gebruik in bedrijven en onderzoek.
Hoe Verschilt Assembly-of-Experts van Mixture-of-Experts?
Mixture-of-Experts (MoE) is een architectonisch ontwerp waarbij verschillende componenten, of “experts”, conditioneel worden geactiveerd per invoer. In MoE LLMs zoals DeepSeek-V3 of Mixtral, zijn slechts een subset van de expertniveaus van het model (bijvoorbeeld 8 van de 256) actief tijdens de voortgang van elke token. Dit stelt zeer grote modellen in staat om hogere parameters te behalen, terwijl ze efficiënt blijven.
Vertaald met ChatGPT gpt-4o-mini