OpenAI waarschuwt: AI-browsers blijven kwetsbaar voor prompt-injectieaanvallen
OpenAI werkt continu aan het versterken van zijn Atlas AI-browser tegen cyberaanvallen. Toch erkent het bedrijf dat prompt-injecties, een type aanval waarbij AI-agents worden gemanipuleerd om schadelijke instructies op te volgen die vaak verborgen zijn in webpagina's of e-mails, een risico blijven dat niet snel zal verdwijnen. Dit roept vragen op over de veiligheid waarmee AI-agents op het open web kunnen opereren.
In een blogpost stelde OpenAI op maandag: “Prompt-injectie, vergelijkbaar met oplichting en sociale engineering op het web, zal waarschijnlijk nooit volledig ‘opgelost’ zijn.” Deze uitspraak kwam naar voren in hun uitleg over hoe ze de beveiliging van Atlas versterken om de voortdurende aanvallen te weerstaan. Het bedrijf gaf toe dat de “agentmodus” in ChatGPT Atlas de kwetsbaarheid vergroot.
De ChatGPT Atlas-browser werd in oktober gelanceerd, waarna beveiligingsonderzoekers snel demo's publiceerden die aantonen dat het mogelijk is om met slechts een paar woorden in Google Docs het gedrag van de onderliggende browser te veranderen. Op dezelfde dag publiceerde Brave een blogpost waarin werd uitgelegd dat indirecte prompt-injectie een systematisch probleem vormt voor AI-gestuurde browsers, waaronder Perplexity’s Comet.
OpenAI is niet de enige die erkent dat prompt-injecties een blijvend probleem zijn. Het Nationale Cyber Security Centre van het Verenigd Koninkrijk waarschuwde eerder deze maand dat aanvallen via prompt-injectie tegen generatieve AI-applicaties “misschien nooit volledig te mitigeren zijn”, waardoor websites risico lopen op datalekken. De Britse overheidsinstantie adviseerde cyberprofessionals om de risico's en impact van prompt-injecties te verminderen, in plaats van te denken dat deze aanvallen kunnen worden “gestopt”.
OpenAI zelf beschrijft prompt-injectie als een langetermijnuitdaging op het gebied van AI-beveiliging en benadrukt dat ze voortdurend hun verdedigingen zullen moeten versterken.
Hoe pakt OpenAI deze uitdagende taak aan? Ze hebben een proactieve en snelle reactieketen opgezet die volgens het bedrijf al vroeg veelbelovende resultaten laat zien in het ontdekken van nieuwe aanvalstrategieën voordat deze in het wild worden benut.
Dit is niet heel anders dan wat concurrenten zoals Anthropic en Google beweren: om de voortdurende risico’s van aanvallen via prompt-injectie te bestrijden, moeten de verdedigingen gelaagd zijn en voortdurend worden getest. Google richt zijn recente werk bijvoorbeeld op architectonische en beleidsmatige controles voor agentische systemen.
Waar OpenAI echter een andere aanpak kiest, is met zijn “LLM-gebaseerde geautomatiseerde aanvaller”. Deze aanvaller is in feite een bot die OpenAI heeft getraind met behulp van versterkend leren, om de rol van een hacker te spelen die zoekt naar manieren om schadelijke instructies aan een AI-agent te geven.
De bot kan de aanval in simulatie testen voordat hij deze in de praktijk toepast. De simulator laat zien hoe de doel-AI zou denken en welke acties deze zou ondernemen als hij de aanval zou zien. De bot kan vervolgens die reactie bestuderen, de aanval aanpassen en het opnieuw proberen. Dit inzicht in de interne redenering van de doel-AI is iets waar buitenstaanders geen toegang toe hebben, zodat de bot van OpenAI in theorie sneller kwetsbaarheden kan vinden dan een echte aanvaller in de praktijk zou kunnen.
Dit is een veelgebruikte tactiek in AI-veiligheidstests: bouw een agent om de randgevallen te vinden en test deze snel in simulatie.
OpenAI merkte op: “Onze op versterkend leren getrainde aanvaller kan een agent aansteken om geavanceerde, langdurige schadelijke werkstromen uit te voeren die zich over tientallen (of zelfs honderden) stappen uitstrekken.” Ze gaven ook aan dat ze nieuwe aanvalstrategieën hebben geobserveerd die niet voorkwamen in hun menselijke red teaming-campagne of externe tests.
Vertaald met ChatGPT gpt-4o-mini