Nieuwe TTS-technologie: Stem AI die daadwerkelijk omzet genereert
Stem-AI die niet alleen menselijk en genuanceerd klinkt, maar ook emotioneel en divers.
Startup Rime pakt deze uitdaging aan met Arcana, een nieuw tekst-naar-spraak (TTS) model dat snel "oneindige" nieuwe stemmen kan genereren van verschillende geslachten, leeftijden, demografieën en talen, simpelweg op basis van een tekstbeschrijving van de gewenste kenmerken. Dit model heeft geleid tot een omzetstijging van 15% voor klanten zoals Domino's en Wingstop.
"Het is één ding om een echt hoogwaardig, levensecht model te hebben dat klinkt als een echte persoon," zei Lily Clifford, CEO en medeoprichter van Rime, tegen VentureBeat. "Het is iets anders om een model te hebben dat niet alleen één stem kan creëren, maar oneindige variabiliteit van stemmen langs demografische lijnen."
Een stemmodel dat menselijk gedrag nabootst
Rime’s multimodale en autoregressieve TTS-model is getraind op natuurlijke gesprekken met echte mensen, in plaats van met stemacteurs. Gebruikers typen simpelweg een tekstprompt met een beschrijving van de stem met de gewenste demografische kenmerken en taal. Bijvoorbeeld: ‘Ik wil een 30-jarige vrouw uit Californië die geïnteresseerd is in software,’ of ‘Geef me de stem van een Australische man.’
"Elke keer dat je dat doet, krijg je een andere stem," aldus Clifford. Het Mist v2 TTS-model van Rime is ontworpen voor toepassingen met een hoog volume die cruciaal zijn voor de business, zodat bedrijven unieke stemmen kunnen creëren die aan hun behoeften voldoen. "De klant hoort een stem die een natuurlijke, dynamische conversatie mogelijk maakt zonder dat er een menselijke agent nodig is," vervolgde Clifford.
Voor degenen die op zoek zijn naar kant-en-klare opties, biedt Rime acht vlaggenschipstemmen met unieke kenmerken:
Het model heeft de mogelijkheid om tussen talen te schakelen en kan fluisteren, sarcastisch zijn of zelfs spottend. Arcana kan ook lachen in de spraak invoegen wanneer het token <lach> wordt gegeven. Dit kan variërende, realistische outputs genereren, van "een klein giecheltje tot een grote schaterlach," aldus Rime. Het model kan ook <chuckle>, <sigh> en zelfs <hum> correct interpreteren, hoewel het daar niet expliciet voor is getraind.
"Het deduceert emoties uit de context," schrijft Rime in een technisch document. "Het lacht, zucht, neuriet, ademt hoorbaar en maakt subtiele mondgeluiden. Het zegt 'uh' en andere onduidelijkheden op een natuurlijke manier. Het vertoont opkomende gedragingen die we nog steeds ontdekken. Kortom, het gedraagt zich als een mens."
Natuurlijke conversaties vastleggen
Rime’s model genereert audio-tokens die worden omgezet in spraak met behulp van een codec-gebaseerde aanpak, wat volgens Rime zorgt voor "snellere dan real-time synthese." Bij de lancering was de tijd tot de eerste audio 250 milliseconden en de latentie in de publieke cloud was ongeveer 400 milliseconden.
Arcana is getraind in drie fasen, waarbij het model steeds verfijnder wordt en beter in staat is om natuurlijke conversaties na te bootsen. Dit biedt een veelbelovende toekomst voor zowel bedrijven als consumenten die op zoek zijn naar authentieke, menselijke interacties met technologie.
Vertaald met ChatGPT gpt-4o-mini