Vill du lura AI – prova poesi

av | dec 1, 2025

Poesi kan vara svår att förutse både språkligt och strukturellt, och just den oförutsägbarheten är en av dess stora kvaliteter. För AI-modeller kan den däremot bli ett problem. Det är slutsatsen i en ny studie från Icaro Lab i Italien, som drivs av det lilla etikfokuserade AI-företaget DexAI.

Forskarna skrev tjugo dikter på italienska och engelska som alla avslutades med en uppmaning att producera skadligt innehåll, till exempel hatbudskap eller uppmaningar till självskada. Tanken var att testet skulle visa hur väl säkerhetsfunktionerna i moderna språkmodeller klarar av att stå emot förfrågningar som modellerna är tränade att blockera.

Jailbreaking

Resultatet visade att den poetiska formen i sig räckte för att få modellerna att svara på begäranden de annars hade avvisat. Forskarna beskriver det som en form av så kallad jailbreaking, där modellen lyckas luras att generera innehåll den inte ska. De testade sina dikter på tjugofem olika språkmodeller från nio företag, bland dem Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI och Moonshot AI. I sammanställningen framgår att modellerna gav skadliga svar i sextiotvå procent av fallen.

Några modeller stod emot bättre än andra. En av OpenAI:s mindre modeller svarade inte med skadligt innehåll på någon av de testade dikterna. Google Gemini 2.5 Pro däremot gav skadliga svar på samtliga. Google DeepMind beskriver sin säkerhetsstrategi som ett processarbete som följer hela utvecklingskedjan och som ska hjälpa systemen att se igenom den konstnärliga formen för att upptäcka skadliga avsikter. Företaget framhåller att de löpande uppdaterar sina filter för att kunna hantera sådana försök.

Sexuellt innehåll

Forskarna försökte få modellerna att generera instruktioner kopplade till farliga material, hatbudskap, sexuellt innehåll, uppmaningar till självskada och annat som modellerna är tränade att stoppa. De publicerade inte de faktiska dikterna eftersom de är enkla att återskapa och, som de uttrycker det, skulle kunna leda till resultat som inte bör spridas. Däremot delade de en oskyldig dikt om bakning som hade samma oförutsägbara struktur som originaldikterna för att visa hur formen var uppbyggd.

Förklaringen till att en poetisk uppmaning fungerar bättre som angreppsmetod än en tydligt formulerad skadlig förfrågan ligger enligt forskarna i hur modellerna arbetar. Språkmodeller bygger sina svar på sannolikheten för vilket ord som är mest troligt att komma härnäst. Poesi följer inte samma raka mönster som vanlig prosa, vilket gör det svårare för modellen att känna igen ett problematiskt syfte inbäddat i en mer kreativ form.

I studien räknades ett svar som osäkert om modellen gav instruktioner, steg-för-steg-information, tekniska beskrivningar eller andra råd som kunde underlätta skadliga handlingar. Forskarna menar att detta avslöjar en svaghet i hur modellerna är uppbyggda, särskilt eftersom många andra former av jailbreaking kräver teknisk kompetens och omfattande försök. Den poetiska metoden går däremot att använda av vem som helst.

Modeller

Forskarna meddelade alla berörda företag innan studien publicerades. Vid tidpunkten för rapportens publicering hade bara Anthropic återkommit med besked att de granskar materialet. I studien ingick även två av Metas modeller, som enligt resultaten svarade med skadligt innehåll i sjuttio procent av fallen. Meta valde att inte kommentera uppgifterna, och andra företag svarade inte på förfrågningar.

Studien är en del av ett större projekt som ska fortsätta med fler experiment. Forskarna planerar att öppna en poesitävling där fler strukturellt oförutsägbara texter ska användas som testmaterial. Gruppen beskriver sig som filosofer snarare än poeter och misstänker att deras resultat kan vara försiktigt formulerade just därför. Icaro Lab är grundat för att studera säkerheten hos språkmodeller med ett humanistiskt perspektiv, där filosofiska och språkliga kunskaper får styra arbetet mot att förstå hur modeller reagerar på kreativa, ovanliga formuleringar.

Källa:
Icaro Lab

Läs mer

Magasin Macken bjuder på tips med Apple Intelligence – AI som du redan har

 

AI som låtsas vara människa är teknikens farligaste blindgångare

 

AI kan utföra 12 procent av alla arbetsuppgifter visa ny studie

 

 


Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

Magasin Macken använder AI för att samla in information och underlag för de texter som publiceras. Vi använder även AI för att skapa bilder och illustrationer. Dessa märks alltid med att det är AI-bilder om bilderna är fotorealistiska. I förekommande fall så läggs även till länkar till källa och referenser till i texterna som alltid kontrolleras av en mänsklig skribent - som är den som skriver och redigerar alla texter till alla väsentliga delar.

Vill du kommentera den här texten, komma med förslag, kritik eller ställa frågor så gör du det enklast i något av de sociala medier som jag och Magasin Macken finns med i. Länkarna hittar du nedan.

  • Facebook
  • Instagram
  • Bluesky
  • Threads
  • Mastodon
  • LinkedIn
  • YouTube
  • Vimeo
  • Twitter
  • RSS
  • E-Mail

De senaste inläggen:

Kirby, Pokémon och Zelda dominerar på Nintendo Switch 2

Kirby, Pokémon och Zelda dominerar på Nintendo Switch 2

Topplistan för Nintendo Switch 2 visar hur starkt Metroid, Kirby och Pokémon dominerar just nu, samtidigt som flera klassiska serier kliver fram med nya versioner för den uppgraderade konsolen. Listan rymmer både stora nya titlar och förbättrade utgåvor, vilket ger…

läs mer
AI kan utföra 12 procent av alla arbetsuppgifter visa ny studie

AI kan utföra 12 procent av alla arbetsuppgifter visa ny studie

En ny studie från Massachusetts Institute of Technology beskriver hur artificiell intelligens redan kan utföra arbetsuppgifter som motsvarar nästan tolv procent av den amerikanska arbetskraftens arbete. Forskarna använder ett mått som kallas Iceberg Index, där varje yrkes roll och delmoment…

läs mer