Salesforce ontwikkelt ‘vluchtsimulator’ voor AI-agenten terwijl 95% van de enterprise-pilots niet in productie komt
Salesforce gelooft dat rigoureuze testen in gesimuleerde zakelijke omgevingen een van de grootste problemen van enterprise kunstmatige intelligentie kan oplossen: agenten die goed functioneren in demonstraties maar falen in de rommelige realiteit van bedrijfsoperaties.
Deze week heeft de cloudsoftwaregigant drie belangrijke AI-onderzoeksinitiatieven onthuld, waaronder CRMArena-Pro, wat zij beschouwen als een "digitale tweeling" van bedrijfsoperaties, waar AI-agenten kunnen worden getest onder stress voordat ze worden ingezet. Deze aankondiging komt terwijl bedrijven worstelen met wijdverspreide mislukkingen van AI-pilots en nieuwe veiligheidszorgen naar voren komen na recente inbreuken die honderden klantinstances van Salesforce in gevaar hebben gebracht.
“Piloten leren niet vliegen in een storm; ze trainen in vluchtsimulators die hen voorbereiden op de meest extreme uitdagingen,” zei Silvio Savarese, de hoofdwetenschapper van Salesforce en hoofd van AI-onderzoek, tijdens een persconferentie. “Evenzo profiteren AI-agenten van simulatie-testen en training, waardoor ze zich kunnen voorbereiden op de onvoorspelbaarheid van dagelijkse zakelijke scenario's vóór hun inzet.”
De onderzoeksinspanningen weerspiegelen de groeiende frustratie van bedrijven met AI-implementaties. Een recent rapport van MIT vond dat 95% van de generatieve AI-pilots bij bedrijven niet in productie komt, terwijl de eigen studies van Salesforce aantonen dat grote taalmodellen alleen een succespercentage van slechts 35% behalen in complexe zakelijke scenario's.
AI-schaalvergroting stuit op zijn grenzen
Vermogenslimieten, stijgende kosten van tokens en vertragingen bij inferentie herstructureren enterprise AI. Doe mee met onze exclusieve salon om te ontdekken hoe topteams:
Beveilig uw plek om voorop te blijven!
Digitale tweelingen voor enterprise AI: hoe Salesforce echte zakelijke chaos simuleert
CRMArena-Pro vertegenwoordigt de poging van Salesforce om de kloof tussen de belofte en prestaties van AI te overbruggen. In tegenstelling tot bestaande benchmarks die generieke capaciteiten testen, evalueert het platform agenten op echte enterprise-taken zoals escalaties in klantenservice, verkoopvoorspellingen en verstoringen in de toeleveringsketen met behulp van synthetische maar realistische zakelijke gegevens.
“Als synthetische gegevens niet zorgvuldig worden gegenereerd, kan dit leiden tot misleidende of te optimistische resultaten over hoe goed uw agent daadwerkelijk presteert in uw echte omgeving,” legde Jason Wu, een onderzoeksmanager bij Salesforce die de ontwikkeling van CRMArena-Pro leidde, uit.
Het platform opereert binnen echte Salesforce-productieomgevingen in plaats van speelgoedopstellingen, met gegevens die zijn gevalideerd door domeinexperts met relevante bedrijfservaring. Het ondersteunt zowel business-to-business als business-to-consumer scenario's en kan multi-turn gesprekken simuleren die de echte gespreksdynamiek vastleggen.
Salesforce heeft zichzelf gebruikt als "klant nul" om deze innovaties intern te testen. “Voordat we iets op de markt brengen, geven we innovatie in handen van ons eigen team om het uit te proberen,” zei Muralidhar Krishnaprasad, de president en CTO van Salesforce, tijdens de persconferentie.
Vijf metrics die bepalen of...
Vertaald met ChatGPT gpt-4o-mini