Anthropic onderzoekt 700.000 gesprekken met Claude — en ontdekt dat zijn AI een eigen morele code heeft

Anthropic onderzoekt 700.000 gesprekken met Claude — en ontdekt dat zijn AI een eigen morele code heeft

Anthropic, het AI-bedrijf opgericht door voormalige medewerkers van OpenAI, heeft de sluier opgehaald van een ongekende analyse van hoe zijn AI-assistent Claude waarden uitdrukt tijdens daadwerkelijke gesprekken met gebruikers. Het onderzoek, dat vandaag is uitgebracht, onthult zowel geruststellende overeenstemming met de doelen van het bedrijf als zorgwekkende randgevallen die kunnen helpen bij het identificeren van kwetsbaarheden in de veiligheidsmaatregelen van AI.

De studie onderzocht 700.000 geanonimiseerde gesprekken en ontdekte dat Claude grotendeels vasthoudt aan het "helpful, honest, harmless"-kader van het bedrijf, terwijl het zijn waarden aanpast aan verschillende contexten — van relatieadvies tot historische analyses. Dit vertegenwoordigt een van de meest ambitieuze pogingen om empirisch te evalueren of het gedrag van een AI-systeem in de praktijk overeenkomt met het beoogde ontwerp.

Een aanmoediging voor andere AI-laboratoria

“Onze hoop is dat dit onderzoek andere AI-laboratoria aanmoedigt om soortgelijk onderzoek naar de waarden van hun modellen uit te voeren,” zei Saffron Huang, een lid van het Societal Impacts-team van Anthropic dat aan de studie werkte, in een interview. “Het meten van de waarden van een AI-systeem is essentieel voor onderzoek naar afstemming en om te begrijpen of een model daadwerkelijk in lijn is met zijn training.”

De eerste uitgebreide morele taxonomie van een AI-assistent

Het onderzoeksteam ontwikkelde een nieuwe evaluatiemethode om systematisch de waarden te categoriseren die in daadwerkelijke Claude-gesprekken worden uitgedrukt. Na het filteren van subjectieve inhoud analyseerden ze meer dan 308.000 interacties, waarmee ze beschrijven wat de eerste grootschalige empirische taxonomie van AI-waarden is.

De taxonomie organiseerde waarden in vijf hoofdcategorieën: Praktisch, Epistemisch, Sociaal, Beschermend en Persoonlijk. Op het meest gedetailleerde niveau identificeerde het systeem 3.307 unieke waarden — van alledaagse deugden zoals professionaliteit tot complexe ethische concepten zoals moreel pluralisme.

“Ik was verrast door de enorme en diverse reeks waarden die we uiteindelijk hebben, meer dan 3.000, van ‘zelfredzaamheid’ By tot ‘strategisch denken’ tot ‘filiale plicht’,” vertelde Huang. “Het was verrassend interessant om veel tijd na te denken over al deze waarden en een taxonomie op te bouwen om ze ten opzichte van elkaar te ordenen — ik heb het gevoel dat het me ook iets heeft geleerd over menselijke waardensystemen.”

Een kritieke tijd voor Anthropic

Het onderzoek komt op een kritiek moment voor Anthropic, dat onlangs Claude Max heeft gelanceerd, een premium abonnementsvorm van $200 per maand die gericht is op concurrentie met een soortgelijk aanbod van OpenAI. Het bedrijf heeft ook de mogelijkheden van Claude uitgebreid met integratie van Google Workspace en autonome onderzoeksfuncties, waarmee het zich positioneert als "een echte virtuele samenwerkingspartner" voor zakelijke gebruikers, volgens recente aankondigingen.

Hoe Claude zijn training volgt — en waar AI-veiligheidsmaatregelen mogelijk falen

De studie toonde aan dat Claude doorgaans trouw blijft aan de prosociale aspiraties van Anthropic, en benadrukt waarden zoals “gebruikerscapaciteit”, “epistemische nederigheid” en “welzijn van de gebruiker” in diverse interacties. Onderzoekers ontdekten echter ook verontrustende gevallen waarin Claude waarden uitte die in strijd waren met zijn training.

“Over het algemeen beschouwen we deze bevinding als zowel nuttige gegevens als een indicatie van waar we verder moeten onderzoeken,” concludeerde Huang. “Dit onderzoek heeft ons niet alleen inzicht gegeven in hoe Claude functioneert, maar biedt ook belangrijke lessen voor de bredere AI-gemeenschap.”

Vertaald met ChatGPT gpt-4o-mini