Vertrouwen in agentic AI: Waarom evaluatie-infrastructuur prioriteit moet hebben
Naarmate AI-agents hun intrede doen in de echte wereld, staan organisaties onder druk om te definiëren waar ze thuishoren, hoe ze effectief gebouwd kunnen worden en hoe ze op grote schaal operationeel kunnen worden gemaakt. Tijdens het Transform 2025-evenement van VentureBeat kwamen tech-leiders samen om te praten over hoe ze hun bedrijf transformeren met agents: Joanne Chen, general partner bij Foundation Capital; Shailesh Nalawadi, VP projectmanagement bij Sendbird; Thys Waanders, SVP AI-transformatie bij Cognigy; en Shawn Malhotra, CTO van Rocket Companies.
Een paar topgebruiksscenario's voor agentic AI
“De initiële aantrekkingskracht van deze implementaties voor AI-agents is vaak gericht op het besparen van menselijke middelen — de wiskunde is vrij eenvoudig,” zei Nalawadi. “Maar dat doet tekort aan de transformatieve mogelijkheden die je met AI-agents krijgt.”
Bij Rocket hebben AI-agents zich bewezen als krachtige tools voor het verhogen van de conversie op de website.
“We hebben ontdekt dat klanten drie keer meer kans hebben om te converteren wanneer ze via onze agent-gebaseerde ervaring op de website komen,” zei Malhotra. “Maar dat is nog maar het begin. Een ingenieur bij Rocket heeft in slechts twee dagen een agent gebouwd om een zeer gespecialiseerde taak te automatiseren: het berekenen van overdrachtsbelasting tijdens hypotheekonderhandelingen.”
“Die twee dagen inspanning bespaarde ons een miljoen dollar per jaar aan kosten,” voegde Malhotra toe. “In 2024 hebben we meer dan een miljoen uren van teamleden bespaard, voornamelijk dankzij onze AI-oplossingen. Dat is niet alleen kostenbesparing. Het stelt onze teamleden ook in staat om hun tijd te besteden aan mensen die vaak de grootste financiële transactie van hun leven maken.”
Agents zijn in wezen een versterking voor individuele teamleden. Die miljoen bespaarde uren zijn niet de totale baan van iemand die vele malen wordt gerepliceerd. Het zijn fracties van het werk dat medewerkers niet leuk vinden om te doen, of dat geen waarde toevoegt voor de klant. En die miljoen bespaarde uren geeft Rocket de capaciteit om meer werk aan te kunnen.
“Sommige van onze teamleden konden vorig jaar 50% meer klanten bedienen dan het jaar ervoor,” voegde Malhotra eraan toe. “Het betekent dat we een hogere doorvoer kunnen hebben, meer zaken kunnen genereren, en we zien hogere conversiepercentages omdat ze hun tijd besteden aan het begrijpen van de behoeften van de klant in plaats van veel routinematig werk te doen dat de AI nu kan uitvoeren.”
Omgaan met de complexiteit van agents
“Een deel van de reis voor onze engineeringteams is het verschuiven van de mindset van software-engineering — schrijf het één keer, test het en het draait en geeft 1.000 keer hetzelfde antwoord — naar een probabilistische benadering, waarbij je dezelfde vraag aan een LLM stelt en het verschillende antwoorden geeft op basis van enkele waarschijnlijkheid,” zei Nalawadi. “Een groot deel hiervan is mensen meekrijgen. Niet alleen software-engineers, maar ook productmanagers en UX-ontwerpers.”
Wat heeft geholpen, is dat LLM's een lange weg hebben afgelegd, zei Waanders. Als ze iets 18 maanden of twee jaar geleden hadden gebouwd, moesten ze echt het juiste model kiezen, anders zou de agent niet presteren zoals verwacht. Nu, zegt hij, zijn we op een punt gekomen waar de meeste gangbare modellen heel goed functioneren. Ze zijn voorspelbaarder. Maar vandaag is de uitdaging het combineren van modellen, het waarborgen van de responsiviteit, het orkestreren van de juiste modellen in de juiste volgorde en het integreren van de juiste data.
“We hebben klanten die tientallen miljoenen gesprekken per jaar voeren,” zei Waanders. “Als je bijvoorbeeld 30 miljoen gesprekken in een jaar automatiseert, hoe schaalt dat in de wereld van LLM's? Dat zijn allemaal zaken die we moesten ontdekken, eenvoudige dingen, zoals het krijgen van de modelbeschikbaarheid bij de cloudproviders. Genoeg quotum hebben voor een ChatGPT-model, bijvoorbeeld. Dat zijn allemaal lessen die we moesten leren, en onze klanten ook. Het is een geheel nieuwe wereld.”
Een laag boven het orkestreren van de LLM is het orkestreren van een netwerk van agents, zei Malhotra. Een conversatie-ervaring heeft een netwerk van agents "onder de motorkap", en de orkestratie is cruciaal voor het leveren van een naadloze gebruikerservaring.
Vertaald met ChatGPT gpt-4o-mini