Hoe het red team van OpenAI ChatGPT-agent transformeerde tot een AI-fort
In een recente blogpost heeft OpenAI een krachtige nieuwe functie voor ChatGPT geïntroduceerd, die een reeks nieuwe beveiligingsrisico's en gevolgen met zich meebrengt. Deze nieuwe functie, de 'ChatGPT-agent', is een optionele modus die betalende abonnees kunnen inschakelen door op 'Tools' in het invoerveld te klikken en 'agentmodus' te selecteren. Zodra deze modus is ingeschakeld, kan ChatGPT inloggen op hun e-mail en andere webaccounts, e-mails schrijven en beantwoorden, bestanden downloaden, aanpassen en creëren, en nog veel meer taken autonoom uitvoeren, vergelijkbaar met een echte persoon die een computer gebruikt met hun inloggegevens.
Dit vereist uiteraard dat de gebruiker het ChatGPT-agent vertrouwt om niets problematisch of kwaadwillig te doen, of om hun gegevens en gevoelige informatie niet te lekken. De risico's zijn voor de gebruiker en hun werkgever groter dan bij de reguliere ChatGPT, die niet in staat is om in te loggen op webaccounts of bestanden direct aan te passen.
Keren Gu, een lid van het Safety Research-team van OpenAI, merkte op dat 'we onze sterkste waarborgen voor de ChatGPT-agent hebben geactiveerd. Het is het eerste model dat we hebben geclassificeerd als hoge capaciteit op het gebied van biologie en chemie onder ons Preparedness Framework. Dit is belangrijk, en we leggen uit wat we doen om het veilig te houden.'
Hoe heeft OpenAI deze beveiligingsproblemen aangepakt?
De missie van het red team was duidelijk. Bij het bekijken van OpenAI's ChatGPT-agent systeemkaart, werd het 'red team' dat door het bedrijf was ingehuurd om de functie te testen, geconfronteerd met een uitdagende taak: 16 PhD-onderzoekers in de beveiliging kregen 40 uur de tijd om het systeem te testen. Door middel van systematische tests ontdekte het red team zeven universele kwetsbaarheden die het systeem konden compromitteren, waardoor kritieke zwaktes in de manier waarop AI-agenten omgaan met echte wereldinteracties aan het licht kwamen.
Wat volgde was uitgebreide beveiligingstests, waarvan veel gebaseerd waren op red teaming. Het Red Teaming Network diende 110 aanvallen in, van promptinjecties tot pogingen om biologische informatie te extraheren. Zestien daarvan overschreden de interne risicodrempels. Elke bevinding gaf de ingenieurs van OpenAI de inzichten die ze nodig hadden om oplossingen te schrijven en uit te rollen voordat het systeem werd gelanceerd.
De resultaten van de tests
De resultaten spreken voor zich in de gepubliceerde bevindingen van de systeemkaart. De ChatGPT-agent kwam naar voren met aanzienlijke beveiligingsverbeteringen, waaronder een prestatie van 95% tegen visuele browser-instructieaanvallen die niet relevant waren en robuuste biologische en chemische waarborgen. Het Red Teaming Network bestond uit 16 onderzoekers met PhD's die relevant waren voor biosafety en samen 110 aanvalspogingen dienden in tijdens de testperiode. Zestien van deze pogingen overschreden de interne risicodrempels, wat fundamentele kwetsbaarheden in de interacties van AI-agenten met de echte wereld aan het licht bracht.
Doorbraak in de interne redeneringsketens
De echte doorbraak kwam van de ongekende toegang van het UK AISI tot de interne redeneringsketens en het beleidsdocument van de ChatGPT-agent. Dit niveau van inzicht stelde onderzoekers in staat om de mechanismen van de agent beter te begrijpen en te evalueren hoe deze omgaat met potentiële bedreigingen. Deze inzichten zijn cruciaal voor het ontwikkelen van toekomstbestendige AI-technologieën die veilig en betrouwbaar zijn voor gebruikers.
De samenwerking tussen het red team en OpenAI bewijst dat proactieve beveiliging een essentiële rol speelt in de ontwikkeling van AI-systemen. Door de zwaktes snel te identificeren en aan te pakken, kan OpenAI niet alleen de veiligheid van zijn producten verbeteren, maar ook het vertrouwen van zijn gebruikers versterken.
De toekomst van AI-beveiliging
Terwijl de technologie zich verder ontwikkelt, is het van cruciaal belang dat bedrijven zoals OpenAI blijven investeren in beveiligingsonderzoek. De opkomst van autonome agenten zoals de ChatGPT-agent roept nieuwe vragen op over privacy, gegevensbeveiliging en de verantwoordelijkheden van ontwikkelaars. Het red team van OpenAI heeft aangetoond dat het mogelijk is om deze uitdagingen aan te gaan door middel van rigoureuze tests en continue monitoring.
Het is duidelijk dat de toekomst van AI niet alleen afhankelijk is van technologische vooruitgang, maar ook van een sterke focus op ethische en veilige implementatie. Door het belang van beveiliging in het ontwerp- en ontwikkelingsproces te benadrukken, kunnen we ervoor zorgen dat AI-systemen niet alleen krachtig zijn, maar ook veilig en betrouwbaar voor iedereen.
Vertaald met ChatGPT gpt-4o-mini