Forskarlarm: Säkerhetsskydd för AI fungerar inte i verkligheten

av | jan 25, 2026

Kreativ arbetsmiljö för team som analyserar data och planerar strategier i ett kontorslandskap med höga väggklockor och diagram, symboliserar samarbete och effektivitet inom företagsmiljö.

En omfattande studie från forskare vid OpenAI, Anthropic och Google DeepMind avslöjar en kritisk klyfta mellan marknadsförda säkerhetsprodukter och faktiska hot. Rapporten med titeln ”The Attacker Moves Second” visar att tolv granskade försvarssystem, som alla påstods ha nästintill noll procents felmarginal, föll samman under realistiska förhållanden.

Forskarna lyckades ta sig förbi skydden i över 90 % av fallen genom att använda adaptiva attacker som efterliknar hur riktiga hackare agerar.

Varför traditionella brandväggar misslyckas

Många företag förlitar sig på statiska filter, men AI-attacker är allt annat än statiska. Metoder som ”Crescendo” sprider ut skadliga instruktioner i små, oskyldiga fragment över upp till tio konversationssteg. Ett vanligt filter ser bara enstaka meddelanden och missar därmed hur helhetsbilden byggs upp tills modellen slutligen ger vika. Dessutom kan enkla tekniker som att koda instruktioner i Base64 eller använda ASCII-konst lura system som bara letar efter kända textmönster.

Fyra hotprofiler som utnyttjar bristerna

Sårbarheterna utnyttjas redan idag av olika aktörer som har lärt sig att kringgå de nuvarande spärrarna:

  • Externa motståndare: De använder publicerad forskning för att anpassa sina angrepp efter specifika försvar.

  • Skadliga företagskunder: Aktörer med legitim tillgång till API:er som försöker extrahera företagshemligheter.

  • Komprometterade användare: Angripare som använder stulna inloggningsuppgifter för att sprida manipulerad information i interna system.

  • Slarviga insiders: Anställda som kopierar känslig kod till publika AI-tjänster, vilket ofta blir den dyraste säkerhetsrisken.

Kravlista för framtida inköp

När företag utvärderar AI-säkerhet bör de ställa hårda krav på leverantörerna för att inte köpa en falsk trygghet. Det räcker inte med statistik från statiska tester; man måste veta hur skyddet presterar mot angripare som förstår hur försvaret är uppbyggt. Fråga efter förmågan att spåra sammanhang över flera konversationsturer och huruvida systemet kan normalisera kodade meddelanden innan de analyseras. Utan dubbelriktad filtrering som kontrollerar både vad som skickas in och vad AI:n svarar förblir dörren öppen för dataläckage.

Sju kontrollfrågor för AI-inköp

Enligt forskningen från OpenAI, Anthropic och Google DeepMind kollapsar de flesta försvar under verkligt tryck. För att undvika en falsk säkerhet bör följande frågor ställas till varje leverantör:

  1. Hur ser er framgångsgrad ut mot adaptiva angripare? Det räcker inte med resultat från statiska tester; leverantören måste visa hur systemet presterar mot angripare som aktivt försöker iterera sig förbi skyddet.

  2. Hur upptäcker lösningen attacker som sträcker sig över flera steg? Metoder som Crescendo döljer skadliga avsikter genom att sprida ut dem över många till synes oskyldiga interaktioner.

  3. Hur hanteras kodat innehåll? Enkel textmatchning räcker inte för att stoppa instruktioner som döljs via Base64, Unicode eller ASCII-konst.

  4. Filtreras både indata och utdata? Skydd som enbart fokuserar på vad användaren skriver kan inte förhindra att känslig data läcker ut via AI-modellens svar.

  5. Hur spåras kontext mellan olika konversationsomgångar? Utan förmåga att hålla reda på tidigare meddelanden är systemet blint för avancerade påverkansförsök.

  6. Hur testas systemet mot angripare som känner till er försvarsmekanism? ”Security through obscurity” ger inget skydd när modellerna själva kan lära sig hur försvaret fungerar och anpassa sig därefter.

  7. Hur snabbt uppdateras försvaret mot nya attackmönster? Eftersom nya metoder publiceras varje vecka måste ett försvar kunna anpassa sig snabbare än motståndaren för att vara relevant.

 

Källa: Venturebeat


Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

Magasin Macken använder AI för att samla in information och underlag för de texter som publiceras. Vi använder även AI för att skapa bilder och illustrationer. Dessa märks alltid med att det är AI-bilder om bilderna är fotorealistiska. I förekommande fall så läggs även till länkar till källa och referenser till i texterna som alltid kontrolleras av en mänsklig skribent - som är den som skriver och redigerar alla texter till alla väsentliga delar.

Vill du kommentera den här texten, komma med förslag, kritik eller ställa frågor så gör du det enklast i något av de sociala medier som jag och Magasin Macken finns med i. Länkarna hittar du nedan.

  • Facebook
  • Instagram
  • Bluesky
  • Threads
  • Mastodon
  • LinkedIn
  • YouTube
  • Vimeo
  • Twitter
  • RSS
  • E-Mail

De senaste inläggen: