Hoe u de selectie van AI-modellen kunt verbeteren voor productie
Bedrijven moeten weten of de modellen die hun applicaties en agenten aandrijven ook in realistische scenario's functioneren. Deze evaluatie kan soms complex zijn omdat het moeilijk is om specifieke situaties te voorspellen. Een vernieuwde versie van de RewardBench-benchmark biedt organisaties een beter inzicht in de werkelijke prestaties van een model.
Het Allen Institute for AI (Ai2) heeft RewardBench 2 gelanceerd, een bijgewerkte versie van hun reward model benchmark, RewardBench, waarvan zij beweren dat deze een holistischer beeld van de modelprestaties biedt en evalueert hoe modellen in lijn zijn met de doelen en standaarden van een onderneming.
Inzicht in het Cybersecurity-First AI Model
Ai2 heeft RewardBench ontwikkeld met classificatietaken die correlaties meten door middel van inferentietijd-berekeningen en downstream training. RewardBench richt zich voornamelijk op reward modellen (RM), die kunnen optreden als beoordelaars en de output van LLM's evalueren. RM's kennen een score of een 'beloning' toe die de versterkende training met menselijke feedback (RHLF) aanstuurt.
Nathan Lambert, een senior onderzoekwetenschapper bij Ai2, vertelde aan VentureBeat dat de eerste RewardBench werkte zoals bedoeld bij de lancering. Toch evolueerde de modelomgeving snel, en dat zou ook voor de benchmarks moeten gelden.
"Naarmate reward modellen geavanceerder werden en de gebruikssituaties genuanceerder, realiseerden we ons snel samen met de gemeenschap dat de eerste versie niet volledig de complexiteit van de menselijke voorkeuren in de echte wereld vastlegde," zei hij.
Lambert voegde eraan toe dat ze met RewardBench 2 "zowel de breedte als de diepte van de evaluatie hebben verbeterd - door meer diverse, uitdagende prompts op te nemen en de methodologie te verfijnen om beter te reflecteren hoe mensen AI-output in de praktijk daadwerkelijk beoordelen." Hij zei dat de tweede versie ongeziene menselijke prompts gebruikt, een uitdagender scoringsopzet heeft en nieuwe domeinen omvat.
Evaluaties voor Modellen die Evalueren
Hoewel reward modellen testen hoe goed andere modellen functioneren, is het ook belangrijk dat RM's in lijn zijn met de waarden van het bedrijf; anders kan het verfijnen en het proces van versterkende training slecht gedrag in stand houden, zoals hallucinaties, de generalisatie verminderen en schadelijke reacties te hoog waarderen.
RewardBench 2 dekt zes verschillende domeinen: feitelijkheid, nauwkeurige instructie-opvolging, wiskunde, veiligheid, focus en verbindingen.
"Bedrijven zouden RewardBench 2 op twee verschillende manieren moeten gebruiken, afhankelijk van hun toepassing. Als ze zelf RLHF uitvoeren, moeten ze de beste praktijken en datasets van toonaangevende modellen in hun eigen pipelines aannemen, omdat reward modellen on-policy trainingsrecepten nodig hebben (d.w.z. reward modellen die het model weerspiegelen dat ze proberen te trainen met RL). Voor inferentietijd-schaalvergroting of datafiltering heeft RewardBench 2 aangetoond dat ze het beste model voor hun domein kunnen selecteren en correlaties in prestaties kunnen zien," zei Lambert.
Lambert merkte op dat benchmarks zoals RewardBench gebruikers een manier bieden om de modellen die ze kiezen te evalueren op basis van de "dimensies die voor hen het belangrijkst zijn, in plaats van te vertrouwen op een smalle one-size-fits-all score." Hij zei dat het idee van prestaties, dat veel evaluatiemethoden beweren te beoordelen, zeer subjectief is, omdat een goede reactie van een model sterk afhankelijk is van de context en de doelen van de gebruiker. Tegelijkertijd worden menselijke voorkeuren zeer genuanceerd.
Ai2 heeft de eerste versie van RewardBench in maart 2024 uitgebracht. Op dat moment zei het bedrijf dat het de eerste benchmark en leaderboard was voor reward modellen die in RLHF worden gebruikt.
Vertaald met ChatGPT gpt-4o-mini