Vertrouwen in agentische AI: Waarom evaluatie-infrastructuur prioriteit moet hebben

Vertrouwen in agentische AI: Waarom evaluatie-infrastructuur prioriteit moet hebben

Naarmate AI-agenten hun intrede doen in de echte wereld, staan organisaties onder druk om te definiëren waar deze agenten bij passen, hoe ze effectief te bouwen en hoe ze op grote schaal operationeel te maken. Tijdens het Transform 2025-evenement van VentureBeat kwamen tech-leiders bijeen om te bespreken hoe zij hun bedrijven transformeren met agenten: Joanne Chen, general partner bij Foundation Capital; Shailesh Nalawadi, VP projectmanagement bij Sendbird; Thys Waanders, SVP AI-transformatie bij Cognigy; en Shawn Malhotra, CTO van Rocket Companies.

Een aantal belangrijke use cases voor agentische AI

"De aanvankelijke aantrekkingskracht van deze implementaties voor AI-agenten heeft meestal te maken met het besparen van menselijke middelen — de rekensom is vrij eenvoudig," zei Nalawadi. "Echter, dat doet geen recht aan de transformerende capaciteiten die je krijgt met AI-agenten."

Bij Rocket hebben AI-agenten bewezen krachtige tools te zijn om de conversie op de website te verhogen. "We hebben ontdekt dat met onze agent-gebaseerde ervaring, de conversatie ervaring op de website, klanten drie keer waarschijnlijker zijn om te converteren wanneer ze via dat kanaal binnenkomen," aldus Malhotra.

Maar dat is slechts het begin. Een ingenieur bij Rocket bouwde binnen twee dagen een agent om een zeer gespecialiseerde taak te automatiseren: het berekenen van overdrachtsbelastingen tijdens hypotheekonderhandelingen. "Die twee dagen van inspanning hebben ons een miljoen dollar per jaar aan kosten bespaard," zei Malhotra. "In 2024 hebben we meer dan een miljoen uren van teamleden bespaard, voornamelijk dankzij onze AI-oplossingen. Dat is niet alleen kostenbesparing. Het stelt onze teamleden ook in staat om zich te concentreren op mensen die vaak de grootste financiële transactie van hun leven maken."

Agents versterken in wezen individuele teamleden. Die miljoen bespaarde uren zijn niet het totaal van iemands werk, dat vele malen wordt gerepliceerd. Het zijn fracties van het werk dat werknemers niet leuk vinden om te doen, of dat geen waarde toevoegt voor de klant. En die miljoen bespaarde uren geven Rocket de capaciteit om meer zaken aan te kunnen.

"Sommige van onze teamleden konden vorig jaar 50% meer klanten helpen dan het jaar ervoor," voegde Malhotra eraan toe. "Het betekent dat we een hogere doorvoer kunnen hebben, meer zaken kunnen drijven, en opnieuw zien we hogere conversiepercentages omdat ze hun tijd besteden aan het begrijpen van de behoeften van de klant in plaats van veel repetitief werk te doen dat de AI nu kan uitvoeren."

Omgaan met de complexiteit van agents

"Een deel van de reis voor onze engineeringteams is het verplaatsen van de mindset van software-engineering — schrijf het eenmaal en test het, en het draait en geeft hetzelfde antwoord 1.000 keer — naar een meer probabilistische benadering, waar je hetzelfde vraagt van een LLM en het verschillende antwoorden geeft door middel van een bepaalde waarschijnlijkheid," zei Nalawadi. "Een groot deel hiervan was het meenemen van mensen. Niet alleen software-ingenieurs, maar ook productmanagers en UX-ontwerpers."

Wat heeft geholpen is dat LLM's een lange weg hebben afgelegd, voegde Waanders eraan toe. Als ze iets 18 maanden of twee jaar geleden hadden gebouwd, moesten ze echt het juiste model kiezen, anders zou de agent niet presteren zoals verwacht. Nu, zegt hij, zijn we op een punt waar de meeste gangbare modellen zich zeer goed gedragen. Ze zijn voorspelbaarder. Maar vandaag is de uitdaging het combineren van modellen, het waarborgen van responsiviteit, het orkestreren van de juiste modellen in de juiste volgorde en het verweven van de juiste data.

"We hebben klanten die tientallen miljoenen gesprekken per jaar voeren," zei Waanders. "Als je bijvoorbeeld 30 miljoen gesprekken in een jaar automatiseert, hoe schaalt dat in de wereld van LLM's? Dat zijn allemaal dingen die we moesten ontdekken, simpele dingen, zoals zelfs het verkrijgen van de modelbeschikbaarheid bij de cloudproviders. Genoeg quotum hebben met een ChatGPT-model, bijvoorbeeld. Dat zijn allemaal lessen die we moesten doormaken, en onze klanten ook. Het is een compleet nieuwe wereld."

Een laag boven het orkestreren van de LLM is het orkestreren van een netwerk van agents, zei Malhotra. Een conversatie-ervaring heeft een netwerk van agents onder de motorkap, en het orkestreren van dit netwerk is essentieel voor een soepele interactie en een verbeterde gebruikerservaring.

Vertaald met ChatGPT gpt-4o-mini