En omfattande studie från forskare vid OpenAI, Anthropic och Google DeepMind avslöjar en kritisk klyfta mellan marknadsförda säkerhetsprodukter och faktiska hot. Rapporten med titeln ”The Attacker Moves Second” visar att tolv granskade försvarssystem, som alla påstods ha nästintill noll procents felmarginal, föll samman under realistiska förhållanden.
Forskarna lyckades ta sig förbi skydden i över 90 % av fallen genom att använda adaptiva attacker som efterliknar hur riktiga hackare agerar.
Varför traditionella brandväggar misslyckas
Många företag förlitar sig på statiska filter, men AI-attacker är allt annat än statiska. Metoder som ”Crescendo” sprider ut skadliga instruktioner i små, oskyldiga fragment över upp till tio konversationssteg. Ett vanligt filter ser bara enstaka meddelanden och missar därmed hur helhetsbilden byggs upp tills modellen slutligen ger vika. Dessutom kan enkla tekniker som att koda instruktioner i Base64 eller använda ASCII-konst lura system som bara letar efter kända textmönster.
Fyra hotprofiler som utnyttjar bristerna
Sårbarheterna utnyttjas redan idag av olika aktörer som har lärt sig att kringgå de nuvarande spärrarna:
-
Externa motståndare: De använder publicerad forskning för att anpassa sina angrepp efter specifika försvar.
-
Skadliga företagskunder: Aktörer med legitim tillgång till API:er som försöker extrahera företagshemligheter.
-
Komprometterade användare: Angripare som använder stulna inloggningsuppgifter för att sprida manipulerad information i interna system.
-
Slarviga insiders: Anställda som kopierar känslig kod till publika AI-tjänster, vilket ofta blir den dyraste säkerhetsrisken.
Kravlista för framtida inköp
När företag utvärderar AI-säkerhet bör de ställa hårda krav på leverantörerna för att inte köpa en falsk trygghet. Det räcker inte med statistik från statiska tester; man måste veta hur skyddet presterar mot angripare som förstår hur försvaret är uppbyggt. Fråga efter förmågan att spåra sammanhang över flera konversationsturer och huruvida systemet kan normalisera kodade meddelanden innan de analyseras. Utan dubbelriktad filtrering som kontrollerar både vad som skickas in och vad AI:n svarar förblir dörren öppen för dataläckage.
Sju kontrollfrågor för AI-inköp
Enligt forskningen från OpenAI, Anthropic och Google DeepMind kollapsar de flesta försvar under verkligt tryck. För att undvika en falsk säkerhet bör följande frågor ställas till varje leverantör:
-
Hur ser er framgångsgrad ut mot adaptiva angripare? Det räcker inte med resultat från statiska tester; leverantören måste visa hur systemet presterar mot angripare som aktivt försöker iterera sig förbi skyddet.
-
Hur upptäcker lösningen attacker som sträcker sig över flera steg? Metoder som Crescendo döljer skadliga avsikter genom att sprida ut dem över många till synes oskyldiga interaktioner.
-
Hur hanteras kodat innehåll? Enkel textmatchning räcker inte för att stoppa instruktioner som döljs via Base64, Unicode eller ASCII-konst.
-
Filtreras både indata och utdata? Skydd som enbart fokuserar på vad användaren skriver kan inte förhindra att känslig data läcker ut via AI-modellens svar.
-
Hur spåras kontext mellan olika konversationsomgångar? Utan förmåga att hålla reda på tidigare meddelanden är systemet blint för avancerade påverkansförsök.
-
Hur testas systemet mot angripare som känner till er försvarsmekanism? ”Security through obscurity” ger inget skydd när modellerna själva kan lära sig hur försvaret fungerar och anpassa sig därefter.
-
Hur snabbt uppdateras försvaret mot nya attackmönster? Eftersom nya metoder publiceras varje vecka måste ett försvar kunna anpassa sig snabbare än motståndaren för att vara relevant.
Källa: Venturebeat
