Vill du lura AI – prova poesi

av Mikael Winterkvist | dec 1, 2025

Poesi kan vara svår att förutse både språkligt och strukturellt, och just den oförutsägbarheten är en av dess stora kvaliteter. För AI-modeller kan den däremot bli ett problem. Det är slutsatsen i en ny studie från Icaro Lab i Italien, som drivs av det lilla etikfokuserade AI-företaget DexAI.

Forskarna skrev tjugo dikter på italienska och engelska som alla avslutades med en uppmaning att producera skadligt innehåll, till exempel hatbudskap eller uppmaningar till självskada. Tanken var att testet skulle visa hur väl säkerhetsfunktionerna i moderna språkmodeller klarar av att stå emot förfrågningar som modellerna är tränade att blockera.

Jailbreaking

Resultatet visade att den poetiska formen i sig räckte för att få modellerna att svara på begäranden de annars hade avvisat. Forskarna beskriver det som en form av så kallad jailbreaking, där modellen lyckas luras att generera innehåll den inte ska. De testade sina dikter på tjugofem olika språkmodeller från nio företag, bland dem Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI och Moonshot AI. I sammanställningen framgår att modellerna gav skadliga svar i sextiotvå procent av fallen.

Några modeller stod emot bättre än andra. En av OpenAI:s mindre modeller svarade inte med skadligt innehåll på någon av de testade dikterna. Google Gemini 2.5 Pro däremot gav skadliga svar på samtliga. Google DeepMind beskriver sin säkerhetsstrategi som ett processarbete som följer hela utvecklingskedjan och som ska hjälpa systemen att se igenom den konstnärliga formen för att upptäcka skadliga avsikter. Företaget framhåller att de löpande uppdaterar sina filter för att kunna hantera sådana försök.

Sexuellt innehåll

Forskarna försökte få modellerna att generera instruktioner kopplade till farliga material, hatbudskap, sexuellt innehåll, uppmaningar till självskada och annat som modellerna är tränade att stoppa. De publicerade inte de faktiska dikterna eftersom de är enkla att återskapa och, som de uttrycker det, skulle kunna leda till resultat som inte bör spridas. Däremot delade de en oskyldig dikt om bakning som hade samma oförutsägbara struktur som originaldikterna för att visa hur formen var uppbyggd.

Förklaringen till att en poetisk uppmaning fungerar bättre som angreppsmetod än en tydligt formulerad skadlig förfrågan ligger enligt forskarna i hur modellerna arbetar. Språkmodeller bygger sina svar på sannolikheten för vilket ord som är mest troligt att komma härnäst. Poesi följer inte samma raka mönster som vanlig prosa, vilket gör det svårare för modellen att känna igen ett problematiskt syfte inbäddat i en mer kreativ form.

I studien räknades ett svar som osäkert om modellen gav instruktioner, steg-för-steg-information, tekniska beskrivningar eller andra råd som kunde underlätta skadliga handlingar. Forskarna menar att detta avslöjar en svaghet i hur modellerna är uppbyggda, särskilt eftersom många andra former av jailbreaking kräver teknisk kompetens och omfattande försök. Den poetiska metoden går däremot att använda av vem som helst.

Modeller

Forskarna meddelade alla berörda företag innan studien publicerades. Vid tidpunkten för rapportens publicering hade bara Anthropic återkommit med besked att de granskar materialet. I studien ingick även två av Metas modeller, som enligt resultaten svarade med skadligt innehåll i sjuttio procent av fallen. Meta valde att inte kommentera uppgifterna, och andra företag svarade inte på förfrågningar.

Studien är en del av ett större projekt som ska fortsätta med fler experiment. Forskarna planerar att öppna en poesitävling där fler strukturellt oförutsägbara texter ska användas som testmaterial. Gruppen beskriver sig som filosofer snarare än poeter och misstänker att deras resultat kan vara försiktigt formulerade just därför. Icaro Lab är grundat för att studera säkerheten hos språkmodeller med ett humanistiskt perspektiv, där filosofiska och språkliga kunskaper får styra arbetet mot att förstå hur modeller reagerar på kreativa, ovanliga formuleringar.

Källa:
Icaro Lab

Läs mer

Magasin Macken bjuder på tips med Apple Intelligence – AI som du redan har

AI som låtsas vara människa är teknikens farligaste blindgångare

AI kan utföra 12 procent av alla arbetsuppgifter visa ny studie

0 kommentarer

Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

Vi använder AI som hjälpmedel
Magasin Macken använder AI för att skapa illustrationer till våra texter. Undantagsvis skapar vi fotorealistiska bilder, i de fallen märks bilden tydligt med att den är skapad med AI. Vi använder även AI för att samla in underlag för våra texter, fakta, statistik och referenser. Alla uppgifter kontrolleras före publicering. AI används även för våra script och plugins.

_____________________________________________________________________________________

Följ oss i Sociala Medier:

De senaste inläggen:

« Äldre inlägg

Vill du lura AI – prova poesi

Jailbreaking

Sexuellt innehåll

0 kommentarer

Mikael Winterkvist

De senaste inläggen:

Här har du Mackens Nyheter det senaste dygnet (11 mars 2026)

Analys: Så bra är MacBook Neo enligt världens största tekniksajter

Billig Mac, dyr huvudvärk för pc-tillverkarna