Irriterad på att din AI-bot fungerar dåligt – det här enkla tricket kan lära AI att göra rätt

av | aug 26, 2025 | Artificiell intelligens, Bluesky, Mastodon, Threads

En ny forskningsstudie, där Apple-forskare varit medförfattare, visar att stora språkmodeller kan bli bättre på att följa instruktioner med hjälp av en enkel metod: checklistor.

När en språkmodell har tränats färdigt brukar den förfinas ytterligare genom en process som kallas RLHF, Reinforcement Learning from Human Feedback. Då får modellen återkoppling av människor som markerar om ett svar är bra eller dåligt. Med tiden lär sig modellen vilka svar som fungerar bäst, men det finns risker – en modell kan till exempel lära sig att ge ytligt korrekta svar som lurar människor, istället för att verkligen lösa uppgiften.

Checklista

I studien med titeln Checklists Are Better Than Reward Models For Aligning Language Models föreslår Apple en ny variant: Reinforcement Learning from Checklist Feedback (RLCF). Här granskas varje svar mot en checklista med tydliga krav, där resultatet bedöms på en skala från 0 till 100.

Forskarna testade metoden på flera välkända benchmark-tester och fick konsekvent bättre resultat än med andra metoder. Bland annat gav RLCF en ökning med fyra poäng på FollowBench, sex poäng på InFoBench och tre poäng på Arena-Hard.

Checklistorna genereras automatiskt av en större språkmodell, som skapar ja/nej-krav utifrån användarens instruktioner. Dessa krav används sedan för att väga och poängsätta olika svar, vilket i sin tur blir inlärningssignalen för den mindre modellen som tränas.

Förbättringar

Resultatet blev förbättringar på upp till 8,2 procent i ett av testerna. Forskarna betonar dock att metoden är inriktad på komplexa instruktioner, inte säkerhet. Den kräver också en kraftfullare modell som domare, vilket kan ses som en begränsning.

Trots detta visar studien en enkel och lovande väg för att göra språkmodeller mer tillförlitliga i det som kanske är deras viktigaste uppgift: att förstå och följa mänskliga instruktioner. Det blir särskilt viktigt i takt med att AI-assistenter får fler agentlika funktioner och därmed större ansvar i användarnas vardag.

Källa:
Cornell University

Magasin Macken använder AI för att samla in information och underlag för de texter som publiceras. Vi använder även AI för att skapa bilder och illustrationer. Dessa märks alltid med att det är AI-bilder. I förekommande fall så läggs även till länkar till källa och referenser till i texterna som alltid kontrolleras av en mänsklig skribent – som är den som skriver och redigerar alla texter till alla väsentliga delar. 

Prenumerera
Nortis om
guest

Denna webbplats använder Akismet för att minska skräppost. Lär dig om hur din kommentarsdata bearbetas.

0 Comments
Nyaste
Äldsta Mest röstade
Inline Feedbacks
Se alla kommentarer

blank

Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

De senaste inläggen:

Cyberattacken växer – hundratals kommuner drabbade

Cyberattacken växer – hundratals kommuner drabbade

Närmare 200 kommuner och regioner är direkt drabbade av den cyberattack som IT-leverantören Miljödata utsattes för i helgen, under lördagen. Enligt SVT så handlar det om en ransomware-attack där utpressare kräver pengar för att låsa upp låsta, krypterade filer. I…

läs mer
Cyberattack mot systemleverantör – flera kommuner drabbade

Cyberattack mot systemleverantör – flera kommuner drabbade

I helgen attackerades IT-leverantören Miljödata, som levererar tjänster till en rad kommuner och känslig information kan ha stulits i samband med intrången. Bland de drabbade finns Skellefteå kommun, Mönsterås och Kalmar. Systemen används av chefer och HR för att hantera…

läs mer