De RAG-realiteitscontrole: Nieuw open-source framework laat bedrijven AI-prestaties wetenschappelijk meten

De RAG-realiteitscontrole: Nieuw open-source framework laat bedrijven AI-prestaties wetenschappelijk meten

Bedrijven besteden veel tijd en geld aan het ontwikkelen van retrieval-augmented generation (RAG) systemen. Het doel is om een nauwkeurig AI-systeem voor ondernemingen te creëren, maar functioneren deze systemen daadwerkelijk zoals bedoeld?

Het gebrek aan een objectieve manier om te meten of RAG-systemen effectief zijn, is een kritieke blinde vlek. Een mogelijke oplossing voor deze uitdaging wordt vandaag gelanceerd met de introductie van het Open RAG Eval open-source framework. Dit nieuwe framework is ontwikkeld door de RAG-platformaanbieder Vectara in samenwerking met professor Jimmy Lin en zijn onderzoeksteam aan de Universiteit van Waterloo.

Open RAG Eval transformeert de momenteel subjectieve ‘dit lijkt beter dan dat’ vergelijkingsaanpak in een rigoureuze, reproduceerbare evaluatiemethodologie die de nauwkeurigheid van de opvraging, de kwaliteit van de generatie en de hallucinatiepercentages over RAG-implementaties in ondernemingen kan meten.

Het framework evalueert de kwaliteit van antwoorden aan de hand van twee belangrijke categorieën van metrics: opvragingsmetrics en generatiemetrics. Het stelt organisaties in staat deze evaluatie toe te passen op elke RAG-pijplijn, ongeacht of ze gebruikmaken van het platform van Vectara of van op maat gemaakte oplossingen. Voor technische besluitvormers betekent dit eindelijk een systematische manier om precies te identificeren welke onderdelen van hun RAG-implementaties geoptimaliseerd moeten worden.

“Als je het niet kunt meten, kun je het niet verbeteren,” vertelde Jimmy Lin, professor aan de Universiteit van Waterloo, in een exclusief interview. “In informatieopvraging en dichte vectoren kun je veel dingen meten, zoals ndcg (Normalized Discounted Cumulative Gain), precisie en recall... maar als het op de juiste antwoorden aankomt, hadden we geen manier, daarom zijn we deze weg ingeslagen.”

Waarom RAG-evaluatie de bottleneck is voor de adoptie van AI in ondernemingen

Vectara was een vroege pionier op het gebied van RAG. Het bedrijf lanceerde in oktober 2022, voordat ChatGPT een bekende naam werd. Vectara introduceerde eigenlijk technologie die ze oorspronkelijk 'grounded AI' noemden, eerder in mei 2023, als een manier om hallucinaties te beperken, voordat de RAG-acroniem algemeen werd gebruikt.

In de afgelopen maanden zijn RAG-implementaties voor veel ondernemingen steeds complexer en moeilijker te beoordelen geworden. Een belangrijke uitdaging is dat organisaties verder gaan dan eenvoudige vraag-en-antwoord-systemen naar meerstaps agentische systemen.

“In de agentische wereld is evaluatie dubbel zo belangrijk, omdat deze AI-agenten vaak multi-stap zijn,” vertelde Am Awadallah, CEO en medeoprichter van Vectara, aan VentureBeat. “Als je hallucinaties niet in de eerste stap oppikt, dan stapelen die zich op met de tweede stap, dan met de derde stap, en uiteindelijk krijg je de verkeerde actie of het verkeerde antwoord aan het einde van de pijplijn.”

Hoe Open RAG Eval werkt: De zwarte doos opsplitsen in meetbare componenten

Het Open RAG Eval-framework benadert evaluatie via een nugget-gebaseerde methodologie. Lin legde uit dat de nugget-benadering de antwoorden opsplitst in essentiële feiten en vervolgens meet hoe effectief een systeem deze nuggets vastlegt.

Het framework evalueert RAG-systemen aan de hand van vier specifieke metrics:

Met deze aanpak kunnen bedrijven niet alleen de effectiviteit van hun RAG-systemen beter begrijpen, maar ook gerichte verbeteringen aanbrengen. Door de focus te leggen op meetbare resultaten, kunnen zij een substantiële impact maken op hun AI-prestaties en uiteindelijk betere bedrijfsresultaten behalen.

Vertaald met ChatGPT gpt-4o-mini