Cohere's Nieuwe Visie Model: Geoptimaliseerd voor Bedrijven met Slechts Twee GPU's

Cohere's Nieuwe Visie Model: Geoptimaliseerd voor Bedrijven met Slechts Twee GPU's

De opkomst van geavanceerde AI-analyse en functies zoals Deep Research heeft geleid tot een groeiende vraag naar modellen en diensten die het proces van documentanalyse vereenvoudigen. Bedrijven hebben behoefte aan oplossingen die hen helpen inzicht te krijgen in de documenten die zij daadwerkelijk gebruiken. De Canadese AI-onderneming Cohere richt zich met haar modellen, waaronder een recent uitgebracht visiemodel, op het optimaliseren van deze functies voor zakelijke toepassingen.

Command A Vision: Een Nieuwe Standaard voor Visuele Taken

Cohere heeft Command A Vision gelanceerd, een visiemodel dat specifiek is ontworpen voor zakelijke toepassingen. Dit model is gebouwd op basis van het Command A-model en bevat maar liefst 112 miljard parameters. Volgens Cohere kan dit model waardevolle inzichten uit visuele data halen en uiterst nauwkeurige, datagestuurde beslissingen nemen door middel van optische tekenherkenning (OCR) en beeldanalyse.

"Of het nu gaat om het interpreteren van producthandleidingen met complexe diagrammen of het analyseren van foto's van echte scènes voor risicodetectie, Command A Vision blinkt uit in het aanpakken van de meest veeleisende visuele uitdagingen binnen bedrijven," aldus Cohere in een recente blogpost.

De Capaciteiten van Command A Vision

Command A Vision kan de meest voorkomende afbeeldingssoorten analyseren die bedrijven nodig hebben, zoals grafieken, diagrammen, gescande documenten en PDF's. Aangezien het is gebouwd op de architectuur van Command A, heeft Command A Vision slechts twee of minder GPU's nodig, net als het tekstmodel. Dit visiemodel behoudt ook de tekstuele mogelijkheden van Command A, waardoor het woorden op afbeeldingen kan lezen en minimaal 23 talen begrijpt.

Cohere benadrukt dat Command A Vision, in tegenstelling tot andere modellen, de totale eigendomskosten voor bedrijven verlaagt en volledig is geoptimaliseerd voor retrieval-toepassingen.

De Architectuur Achter Command A

Cohere heeft de Llava-architectuur gevolgd om zijn Command A-modellen, inclusief het visiemodel, te bouwen. Deze architectuur transformeert visuele kenmerken in zachte visietokens, die in verschillende tegels kunnen worden verdeeld. Deze tegels worden doorgegeven aan de teksttoren van Command A, een dichte tekstuele LLM met 111 miljard parameters.

Volgens Cohere verbruikt een enkele afbeelding tot 3.328 tokens. Het bedrijf trainde het visiemodel in drie fasen: visie-taal uitlijning, gesuperviseerde fine-tuning (SFT) en post-training versterkingsleren met menselijke feedback (RLHF). Deze aanpak stelt Cohere in staat om de kenmerken van de afbeeldingencoder te koppelen aan de embeddingruimte van het taalmodel.

Prestaties en Vergelijkingen

Benchmark-tests hebben aangetoond dat Command A Vision beter presteert dan andere modellen met vergelijkbare visuele mogelijkheden. Cohere heeft Command A Vision getest tegen OpenAI's GPT 4.1 en Meta's Llama, waarbij het visiemodel zijn superioriteit in verschillende visuele taken heeft bewezen. Dit toont aan dat Cohere's aanpak niet alleen innovatief is, maar ook praktisch toepasbaar voor bedrijven die hun workflows willen optimaliseren.

De Toekomst van Visie in AI

Met de introductie van Command A Vision zet Cohere een belangrijke stap in de richting van het gebruik van AI voor bedrijfsprocessen. Dit visiemodel biedt bedrijven de kans om efficiënter te werken door visuele data beter te analyseren en te begrijpen. De eenvoud van de architectuur, gecombineerd met de krachtige mogelijkheden in een zakelijke omgeving, maakt Command A Vision tot een waardevolle aanvulling voor organisaties die willen innoveren met AI.

Conclusie

De lancering van Command A Vision door Cohere markeert een nieuw tijdperk in de toepassing van visuele AI binnen bedrijven. Met slechts twee GPU's kunnen organisaties nu profiteren van geavanceerde analyse en inzichten, wat hen helpt om betere, data-gedreven beslissingen te nemen. Cohere's focus op het verlagen van eigendomskosten en het optimaliseren voor zakelijke behoeften maakt dit model een aantrekkelijke keuze voor bedrijven die hun competitieve voordeel willen vergroten.

Vertaald met ChatGPT gpt-4o-mini