Salesforce richt zich op 'jagged intelligence' voor betrouwbaardere AI
Salesforce pakt een van de meest hardnekkige uitdagingen van kunstmatige intelligentie voor zakelijke toepassingen aan: de kloof tussen de ruwe intelligentie van een AI-systeem en het vermogen om consistent te presteren in onvoorspelbare bedrijfsomgevingen — wat het bedrijf "jagged intelligence" noemt.
In een uitgebreide onderzoeksaanbieding heeft Salesforce AI Research verschillende nieuwe benchmarks, modellen en frameworks onthuld die zijn ontworpen om toekomstige AI-agenten intelligenter, betrouwbaarder en veelzijdiger te maken voor zakelijk gebruik. De innovaties zijn gericht op het verbeteren van zowel de mogelijkheden als de consistentie van AI-systemen, vooral wanneer ze worden ingezet als autonome agenten in complexe zakelijke omgevingen.
De uitdaging van inconsistentie in AI-prestaties
“Hoewel LLM's uitblinken in gestandaardiseerde tests, ingewikkelde reizen kunnen plannen en verfijnde poëzie kunnen genereren, stuiten ze vaak op moeilijkheden wanneer betrouwbare en consistente uitvoering van taken vereist is in dynamische, onvoorspelbare bedrijfsomgevingen,” zei Silvio Savarese, Chief Scientist en Hoofd van AI Research bij Salesforce, tijdens een persconferentie voorafgaand aan de aankondiging.
Het initiatief vertegenwoordigt de inzet van Salesforce voor wat Savarese "Enterprise General Intelligence" (EGI) noemt — AI die specifiek is ontworpen voor de complexiteit van bedrijven in plaats van de meer theoretische zoektocht naar Artificial General Intelligence (AGI).
“We definiëren EGI als doelgerichte AI-agenten voor bedrijven die niet alleen zijn geoptimaliseerd voor mogelijkheden, maar ook voor consistentie,” legde Savarese uit. “Hoewel AGI beelden oproept van superintelligente machines die de menselijke intelligentie overtreffen, wachten bedrijven niet op die verre, illusoire toekomst. Ze passen deze fundamentele concepten nu toe om echte wereldproblemen op schaal op te lossen.”
Het meten en aanpakken van inconsistentie in AI-prestaties
Een centraal aandachtspunt van het onderzoek is het kwantificeren en aanpakken van de inconsistentie in AI-prestaties. Salesforce introduceerde de SIMPLE dataset, een openbare benchmark met 225 eenvoudige redeneervragen die zijn ontworpen om te meten hoe "jagged" de capaciteiten van een AI-systeem werkelijk zijn.
“De AI van vandaag is jagged, dus we moeten daar aan werken. Maar hoe kunnen we aan iets werken zonder het eerst te meten? Dat is precies wat deze SIMPLE benchmark is,” verklaarde Shelby Heinecke, Senior Manager van Research bij Salesforce, tijdens de persconferentie.
Voor zakelijke toepassingen is deze inconsistentie niet louter een academische zorg. Een enkele misstap van een AI-agent kan de operaties verstoren, het vertrouwen van klanten ondermijnen of aanzienlijke financiële schade toebrengen.
“Voor bedrijven is AI geen vrijblijvende bezigheid; het is een missie-kritisch hulpmiddel dat onwrikbare voorspelbaarheid vereist,” merkte Savarese op in zijn commentaar.
CRMArena: Het virtuele testterrein van Salesforce voor AI-agenten
Misschien is de meest significante innovatie CRMArena, een nieuw benchmark-framework dat is ontworpen om realistische scenario's voor klantenrelatiebeheer te simuleren. Het stelt uitgebreide tests van AI-agenten in professionele contexten mogelijk en adresseert de kloof tussen academische benchmarks en de eisen van de echte wereld in het bedrijfsleven.
“Erkend dat huidige AI-modellen vaak tekortschieten in het weergeven van de intricacies van echte zakelijke omgevingen, biedt CRMArena een platform voor het testen en verbeteren van AI-agenten,” zei Savarese. “Het stelt ons in staat om te begrijpen hoe deze modellen zich in de praktijk gedragen en waar ze verbetering behoeven.”
In de volgende secties zullen we verder ingaan op de specifieke innovaties die Salesforce heeft geïntroduceerd en hoe deze zijn ontworpen om de effectiviteit en betrouwbaarheid van AI in zakelijke omgevingen te verbeteren.
Vertaald met ChatGPT gpt-4o-mini