Waarom RAG-systemen in bedrijven falen: Google-studie introduceert de oplossing ‘voldoende context’
In een recente studie van Google-onderzoekers wordt het concept van "voldoende context" geïntroduceerd, een nieuwe kijk op het begrijpen en verbeteren van retrieval augmented generation (RAG) systemen in grote taalmodellen (LLM's). Deze aanpak maakt het mogelijk om te bepalen of een LLM voldoende informatie heeft om een vraag nauwkeurig te beantwoorden, wat een cruciale factor is voor ontwikkelaars die real-world bedrijfsapplicaties bouwen waar betrouwbaarheid en feitelijke correctheid van het grootste belang zijn.
De aanhoudende uitdagingen van RAG
RAG-systemen zijn uitgegroeid tot een hoeksteen voor het bouwen van meer feitelijke en verifieerbare AI-toepassingen. Echter, deze systemen kunnen ongewenste eigenschappen vertonen. Ze kunnen zelfverzekerd onjuiste antwoorden geven, zelfs wanneer ze bewijs hebben opgehaald, afgeleid worden door irrelevante informatie in de context, of niet in staat zijn om antwoorden op de juiste manier uit lange tekstfragmenten te extraheren.
In hun paper stellen de onderzoekers: "Het ideale resultaat is dat de LLM het juiste antwoord geeft als de gegeven context voldoende informatie bevat om de vraag te beantwoorden in combinatie met de parametric kennis van het model. Als dat niet het geval is, moet het model zich onthouden van antwoorden en/of om meer informatie vragen." Het bereiken van dit ideale scenario vereist het bouwen van modellen die kunnen bepalen of de gegeven context kan helpen om een vraag correct te beantwoorden en deze selectief gebruiken.
Voldoende context
Om dit aan te pakken, introduceren de onderzoekers het concept van "voldoende context." Op een hoog niveau worden invoerinstanties geclassificeerd op basis van of de gegeven context voldoende informatie bevat om de vraag te beantwoorden. Dit splitst contexten in twee gevallen:
Deze classificatie wordt bepaald door naar de vraag en de bijbehorende context te kijken zonder dat een grondwaarheidsantwoord nodig is. Dit is van vitaal belang voor real-world toepassingen waar grondwaarheidsantwoorden niet gemakkelijk beschikbaar zijn tijdens de inferentie.
Automatiseren van het labelen
De onderzoekers ontwikkelden een LLM-gebaseerde "autorater" om het labelen van instanties als voldoende of onvoldoende context te automatiseren. Ze ontdekten dat Google’s Gemini 1.5 Pro-model, met een enkel voorbeeld (1-shot), het beste presteerde in het classificeren van contextgeschiktheid, met hoge F1-scores en nauwkeurigheid.
In het paper staat: "In real-world scenario's kunnen we geen kandidaat-antwoorden verwachten bij het evalueren van de modelprestaties. Daarom is het wenselijk om een methode te gebruiken die alleen werkt met de vraag en context." Dit benadrukt de noodzaak van een robuuste aanpak bij de beoordeling van modellen.
Belangrijke bevindingen over LLM-gedrag met RAG
Door verschillende modellen en datasets te analyseren vanuit het perspectief van voldoende context, kwamen verschillende belangrijke inzichten naar voren. Zoals verwacht, behalen modellen over het algemeen hoge scores wanneer ze voldoende context hebben, maar er zijn ook uitdagingen die moeten worden aangepakt, vooral in situaties waarin de context niet voldoende is.
De bevindingen uit deze studie kunnen bijdragen aan de ontwikkeling van meer effectieve RAG-systemen die beter in staat zijn om relevante en correcte informatie te leveren. Dit kan uiteindelijk leiden tot meer betrouwbare AI-toepassingen in verschillende sectoren, van klantenservice tot medische diagnostiek.
Vertaald met ChatGPT gpt-4o-mini