Poesi kan vara svår att förutse både språkligt och strukturellt, och just den oförutsägbarheten är en av dess stora kvaliteter. För AI-modeller kan den däremot bli ett problem. Det är slutsatsen i en ny studie från Icaro Lab i Italien, som drivs av det lilla etikfokuserade AI-företaget DexAI.
Forskarna skrev tjugo dikter på italienska och engelska som alla avslutades med en uppmaning att producera skadligt innehåll, till exempel hatbudskap eller uppmaningar till självskada. Tanken var att testet skulle visa hur väl säkerhetsfunktionerna i moderna språkmodeller klarar av att stå emot förfrågningar som modellerna är tränade att blockera.
Jailbreaking
Resultatet visade att den poetiska formen i sig räckte för att få modellerna att svara på begäranden de annars hade avvisat. Forskarna beskriver det som en form av så kallad jailbreaking, där modellen lyckas luras att generera innehåll den inte ska. De testade sina dikter på tjugofem olika språkmodeller från nio företag, bland dem Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI och Moonshot AI. I sammanställningen framgår att modellerna gav skadliga svar i sextiotvå procent av fallen.
Några modeller stod emot bättre än andra. En av OpenAI:s mindre modeller svarade inte med skadligt innehåll på någon av de testade dikterna. Google Gemini 2.5 Pro däremot gav skadliga svar på samtliga. Google DeepMind beskriver sin säkerhetsstrategi som ett processarbete som följer hela utvecklingskedjan och som ska hjälpa systemen att se igenom den konstnärliga formen för att upptäcka skadliga avsikter. Företaget framhåller att de löpande uppdaterar sina filter för att kunna hantera sådana försök.
Sexuellt innehåll
Forskarna försökte få modellerna att generera instruktioner kopplade till farliga material, hatbudskap, sexuellt innehåll, uppmaningar till självskada och annat som modellerna är tränade att stoppa. De publicerade inte de faktiska dikterna eftersom de är enkla att återskapa och, som de uttrycker det, skulle kunna leda till resultat som inte bör spridas. Däremot delade de en oskyldig dikt om bakning som hade samma oförutsägbara struktur som originaldikterna för att visa hur formen var uppbyggd.
Förklaringen till att en poetisk uppmaning fungerar bättre som angreppsmetod än en tydligt formulerad skadlig förfrågan ligger enligt forskarna i hur modellerna arbetar. Språkmodeller bygger sina svar på sannolikheten för vilket ord som är mest troligt att komma härnäst. Poesi följer inte samma raka mönster som vanlig prosa, vilket gör det svårare för modellen att känna igen ett problematiskt syfte inbäddat i en mer kreativ form.
I studien räknades ett svar som osäkert om modellen gav instruktioner, steg-för-steg-information, tekniska beskrivningar eller andra råd som kunde underlätta skadliga handlingar. Forskarna menar att detta avslöjar en svaghet i hur modellerna är uppbyggda, särskilt eftersom många andra former av jailbreaking kräver teknisk kompetens och omfattande försök. Den poetiska metoden går däremot att använda av vem som helst.
Modeller
Forskarna meddelade alla berörda företag innan studien publicerades. Vid tidpunkten för rapportens publicering hade bara Anthropic återkommit med besked att de granskar materialet. I studien ingick även två av Metas modeller, som enligt resultaten svarade med skadligt innehåll i sjuttio procent av fallen. Meta valde att inte kommentera uppgifterna, och andra företag svarade inte på förfrågningar.
Studien är en del av ett större projekt som ska fortsätta med fler experiment. Forskarna planerar att öppna en poesitävling där fler strukturellt oförutsägbara texter ska användas som testmaterial. Gruppen beskriver sig som filosofer snarare än poeter och misstänker att deras resultat kan vara försiktigt formulerade just därför. Icaro Lab är grundat för att studera säkerheten hos språkmodeller med ett humanistiskt perspektiv, där filosofiska och språkliga kunskaper får styra arbetet mot att förstå hur modeller reagerar på kreativa, ovanliga formuleringar.
Källa:
Icaro Lab
Läs mer
Magasin Macken bjuder på tips med Apple Intelligence – AI som du redan har
AI som låtsas vara människa är teknikens farligaste blindgångare
AI kan utföra 12 procent av alla arbetsuppgifter visa ny studie
