Mistral's Voxtral: Meer dan alleen transcriptie met samenvattingen en spraakgestuurde functies
Mistral heeft vandaag een open-source stemmodel uitgebracht dat kan concurreren met betaalde spraak-AI, zoals die van ElevenLabs en Hume AI. Het bedrijf stelt dat dit model de kloof overbrugt tussen propriëtaire spraakherkenningsmodellen en de meer open, maar foutgevoelige versies. Voxtral, dat Mistral onder een Apache 2.0-licentie zal uitbrengen, is beschikbaar in een versie met 24 miljard parameters en een variant met 3 miljard. Het grotere model is bedoeld voor toepassingen op schaal, terwijl de kleinere versie geschikt is voor lokale en edge-toepassingen.
Mistral verklaarde: "Stem was de eerste interface van de mensheid—lang voordat schrijven of typen bestond, stelde het ons in staat om ideeën te delen, werk te coördineren en relaties op te bouwen. Naarmate digitale systemen krachtiger worden, keert de stem terug als onze meest natuurlijke vorm van interactie tussen mens en computer." Het bedrijf voegde eraan toe: "Toch blijven de huidige systemen beperkt—onbetrouwbaar, propriëtair en te kwetsbaar voor gebruik in de echte wereld. Het dichten van deze kloof vereist tools met uitzonderlijke transcriptie, diepgaand begrip, meertalige vloeiendheid en een open, flexibele implementatie."
Toegankelijkheid van Voxtral
Voxtral is beschikbaar via de API van Mistral en een enkelvoudig transcriptie-eindpunt op de website. De modellen zijn ook toegankelijk via Le Chat, het chatplatform van Mistral. Het bedrijf heeft de potentie van spraak-AI benadrukt en hoe deze technologie de interactie tussen gebruiker en systeem kan verbeteren.
De impact van spraak-AI
Mistral stelde dat spraak-AI "betekende kiezen tussen twee afwegingen," waarbij werd opgemerkt dat sommige open-source automatische spraakherkenningsmodellen vaak een beperkte semantisch begrip hebben. Aan de andere kant komen gesloten modellen met sterk taalbegrip tegen hoge kosten. Voxtral biedt daar een oplossing voor, met "state-of-the-art nauwkeurigheid en native semantisch begrip in de open lucht, voor minder dan de helft van de prijs van vergelijkbare API's."
Functionaliteiten van Voxtral
Met een context van 32K tokens kan Voxtral tot 30 minuten audio beluisteren en transcriberen, of 40 minuten audio begrijpen. Het biedt de mogelijkheid tot samenvatten, wat betekent dat het model vragen kan beantwoorden op basis van de audio-inhoud en samenvattingen kan genereren zonder over te schakelen naar een aparte modus. Gebruikers kunnen functies en API-aanroepen activeren op basis van gesproken instructies, wat de interactie verder vereenvoudigt.
Meertaligheid en taalondersteuning
Het model is gebaseerd op Mistral’s Mistral Small 3.1 en ondersteunt meerdere talen. Het kan automatisch talen detecteren zoals Engels, Spaans, Frans, Portugees, Hindi, Duits, Italiaans en Nederlands. Deze meertalige ondersteuning maakt Voxtral toegankelijk voor een breed scala aan gebruikers wereldwijd.
Enterprise-functies van Voxtral
Mistral heeft ook enterprise-functies aan Voxtral toegevoegd, waaronder private implementatie, zodat organisaties het model kunnen integreren in hun eigen ecosystemen. Deze functies omvatten ook domeinspecifieke fine-tuning en geavanceerde toegang tot context en prioriteit voor technische middelen voor klanten die hulp nodig hebben bij het integreren van Voxtral in hun workflows.
De toekomst van spraakherkenning
Spraakherkenning AI is tegenwoordig op veel platforms beschikbaar. Gebruikers kunnen tegen ChatGPT praten, en het platform verwerkt gesproken instructies op een vergelijkbare manier als geschreven opdrachten. Fastfoodketens hebben oplossingen zoals SoundHound ingezet voor hun drive-thru-services. Deze ontwikkelingen tonen aan dat de toekomst van spraak-AI veelbelovend is en steeds meer geïntegreerd zal worden in ons dagelijks leven.
Vertaald met ChatGPT gpt-4o-mini