LangChain's Align Evals: Het Vertrouwen in Evaluaties Versterken
In een tijd waarin bedrijven steeds meer gebruikmaken van AI-modellen om ervoor te zorgen dat hun applicaties goed functioneren en betrouwbaar zijn, worden de verschillen tussen modelgebaseerde evaluaties en menselijke evaluaties steeds duidelijker. Dit kan leiden tot verwarring en verkeerde interpretaties van de prestaties van AI-systemen. Om deze kloof te dichten, heeft LangChain Align Evals toegevoegd aan LangSmith. Dit biedt een manier om de discrepantie tussen evaluaties door grote taalmodellen en menselijke voorkeuren te verkleinen en tegelijkertijd ruis te verminderen. Met Align Evals kunnen gebruikers van LangSmith hun eigen op LLM (large language model) gebaseerde evaluatoren creëren en deze afstemmen op de voorkeuren van hun organisatie.
Volgens LangChain heeft een veelgehoorde uitdaging die teams tegenkomen te maken met de inconsistentie tussen evaluatiescores: 'Onze evaluatiescores komen niet overeen met wat we zouden verwachten dat een menselijk teamlid zou zeggen.' Deze mismatch leidt tot verwarrende vergelijkingen en tijdverspilling bij het zoeken naar verkeerde signalen. LangChain is een van de weinige platforms die LLM als beoordelaar integreert, oftewel modelgebaseerde evaluaties voor andere modellen, direct in het testdashboard.
De Basis van Align Evals
Het bedrijf heeft Align Evals gebaseerd op een paper van Eugene Yan, een hoofdspecialist bij Amazon. In zijn paper legt Yan het kader uit voor een applicatie, die ook AlignEval wordt genoemd, die delen van het evaluatieproces kan automatiseren. Align Evals stelt bedrijven en andere ontwikkelaars in staat om evaluatieprompts te itereren, de afstemming scores van menselijke evaluatoren te vergelijken met de scores die door LLM's zijn gegenereerd, en deze te vergelijken met een baseline afstemming score.
LangChain stelt dat Align Evals 'de eerste stap is in het helpen bouwen van betere evaluatoren.' Na verloop van tijd is het de bedoeling van het bedrijf om analyses te integreren om de prestaties te volgen en de optimalisatie van prompts te automatiseren, waardoor automatisch variaties van prompts worden gegenereerd.
Hoe Begin je?
Gebruikers beginnen met het identificeren van evaluatiecriteria voor hun applicatie. Bijvoorbeeld, chat-apps vereisen doorgaans nauwkeurigheid. Vervolgens moeten gebruikers de gegevens selecteren die ze voor menselijke evaluatie willen gebruiken. Deze voorbeelden moeten zowel goede als slechte aspecten demonstreren, zodat menselijke evaluatoren een holistisch beeld van de applicatie kunnen krijgen en een reeks scores kunnen toekennen.
Ontwikkelaars moeten vervolgens handmatig scores toekennen voor prompts of taakdoelen die als benchmark zullen dienen. Daarna moeten ze een initiële prompt voor de modelbeoordelaar creëren en itereren met behulp van de afstemmingsresultaten van de menselijke beoordelaars. 'Als je LLM consistent te hoge scores geeft op bepaalde antwoorden, probeer dan duidelijkere negatieve criteria toe te voegen. Het verbeteren van je evaluatorscore is een iteratief proces. Leer meer over best practices voor het itereren op je prompt in onze documentatie,' aldus LangChain.
Een Toenemend Aantal LLM Evaluaties
Steeds meer bedrijven wenden zich tot evaluatiekaders om de betrouwbaarheid, het gedrag, de taakafstemming en de controleerbaarheid van AI-systemen, waaronder applicaties en agenten, te beoordelen. Het kunnen aanwijzen van een duidelijke score voor hoe modellen of agenten presteren, biedt organisaties niet alleen de zekerheid om AI-toepassingen in te zetten, maar maakt het ook gemakkelijker om andere modellen te vergelijken.
Bedrijven zoals Salesforce zijn al begonnen met het implementeren van dergelijke evaluatie-infrastructuren. Dit helpt niet alleen bij het verbeteren van hun producten, maar stelt hen ook in staat om betere beslissingen te nemen over de inzet van AI-technologieën in hun bedrijfsvoering.
De Toekomst van Evaluaties met AI
Met de opkomst van AI en machine learning zullen organisaties steeds meer afhankelijk zijn van betrouwbare evaluaties om hun systemen en processen te optimaliseren. De ontwikkeling van tools zoals Align Evals maakt het voor bedrijven mogelijk om niet alleen hun evaluatiesystemen te verbeteren, maar ook om de interactie tussen mens en machine te versterken. Deze innovaties beloven niet alleen een betere afstemming op bedrijfsdoelen, maar ook een verhoogde efficiëntie in de manier waarop AI wordt ingezet in verschillende sectoren.
Het is duidelijk dat de evolutie van AI-evaluaties nog maar net begint. Met steeds meer mogelijkheden om deze technologieën te integreren en te verbeteren, kunnen we verwachten dat de toekomst van evaluaties in AI een spannende en dynamische weg vooruit biedt.
Vertaald met ChatGPT gpt-4o-mini