Deep Cogito lanceert vier nieuwe open source hybride redeneer-modellen met zelfverbeterende intuïtie
Deep Cogito, een minder bekende AI-onderzoeksstart-up uit San Francisco, opgericht door voormalige Google-medewerkers, heeft vier nieuwe open source hybride redeneer-modellen gelanceerd. Deze modellen proberen iets wat slechts weinigen doen: leren hoe ze in de loop van de tijd effectiever kunnen redeneren en dit zelfstandig verbeteren.
De modellen, die deel uitmaken van de v2-familie van Cogito, variëren van 70 miljard tot 671 miljard parameters en zijn beschikbaar voor AI-ontwikkelaars en bedrijven onder een mix van beperkte en volledig open licentievoorwaarden. De modellen zijn als volgt:
Dense- en MoE-modellen zijn elk geschikt voor verschillende behoeften. De Dense-modellen van 70B en 405B activeren alle parameters bij elke doorvoer, waardoor ze voorspelbaarder zijn en gemakkelijker te implementeren op een breed scala aan hardware. Ze zijn ideaal voor toepassingen met lage latentie, fine-tuning en omgevingen met beperkte GPU-capaciteit. MoE-modellen, zoals de 109B en 671B versies, gebruiken een spaarzaam routeringsmechanisme om slechts enkele gespecialiseerde "expert" subnetwerken tegelijk te activeren. Dit maakt het mogelijk om veel grotere totale modelgroottes te hebben zonder evenredige kostenstijgingen in rekenkracht.
Prestaties van de modellen
Deze modellen zijn zeer geschikt voor taken met hoge prestaties, onderzoek naar complexe redeneervormen of het leveren van nauwkeurigheid op het hoogste niveau met lagere runtime-kosten. In Cogito v2 fungeert het 671B MoE-model als het vlaggenschip, dat zijn schaal en routeringsefficiëntie benut om te concurreren met of zelfs beter te presteren dan de beste open modellen op benchmarks, terwijl het aanzienlijk kortere redeneerlijnen gebruikt.
De modellen zijn nu beschikbaar voor download en gebruik door bedrijven, en ook voor lokaal gebruik. Voor degenen die de modelinvoeren niet op hun eigen hardware kunnen hosten, zijn er applicatieprogrammeerinterfaces (API's) beschikbaar van verschillende aanbieders. Er is ook een gequantiseerde 8-bit floating point (FP8) versie van het 671B-model, die de grootte van de getallen die worden gebruikt om de parameters van het model weer te geven, vermindert van 16-bits naar 8-bits. Dit helpt gebruikers om enorme modellen sneller, goedkoper en op toegankelijkere hardware uit te voeren, soms met slechts een verwaarloosbare impact op de prestaties. Echter, dit kan de nauwkeurigheid van het model iets verminderen, vooral voor taken die fijne precisie vereisen, zoals bepaalde wiskundige of redeneerproblemen.
Hybride redeneersystemen
Alle vier de Cogito v2-modellen zijn ontworpen als hybride redeneersystemen. Ze kunnen onmiddellijk reageren op een vraag of, indien nodig, intern reflecteren voordat ze antwoorden. Cruciaal is dat deze reflectie niet alleen een runtime-gedrag is; het is ingebakken in het trainingsproces zelf.
Deze modellen zijn getraind om hun eigen redeneervormen te internaliseren, wat betekent dat ze in staat zijn om hun redeneerproces te verbeteren op basis van eerdere ervaringen. Dit biedt een unieke kans voor bedrijven om de modellen te gebruiken in situaties waarin niet alleen snelheid, maar ook nauwkeurigheid en complexiteit van cruciaal belang zijn.
Toepassingen en toekomst
De toepassingen van deze modellen zijn breed en veelzijdig. Ze kunnen worden ingezet in verschillende sectoren, van gezondheidszorg tot financiën, waar ze kunnen helpen bij het maken van intelligente beslissingen op basis van complexe gegevenssets. De mogelijkheid om zichzelf te verbeteren kan bedrijven een concurrentievoordeel bieden en de efficiëntie van processen verhogen.
Met deze nieuwe modellen zet Deep Cogito een belangrijke stap voorwaarts in de AI-ruimte. De combinatie van hoge prestaties, toegankelijkheid en zelfverbetering maakt deze modellen tot waardevolle hulpmiddelen voor ontwikkelaars en bedrijven die de mogelijkheden van AI willen verkennen en benutten.
Conclusie
Deep Cogito's hybride redeneermodellen zijn een spannende ontwikkeling in de wereld van AI. Met hun vermogen om te leren en zich aan te passen, bieden ze nieuwe mogelijkheden voor bedrijven die willen innoveren en hun processen willen optimaliseren. De toekomst van AI lijkt veelbelovend, en met deze nieuwe modellen komt die toekomst een stap dichterbij.
Vertaald met ChatGPT gpt-4o-mini