En ny forskningsstudie, där Apple-forskare varit medförfattare, visar att stora språkmodeller kan bli bättre på att följa instruktioner med hjälp av en enkel metod: checklistor.
När en språkmodell har tränats färdigt brukar den förfinas ytterligare genom en process som kallas RLHF, Reinforcement Learning from Human Feedback. Då får modellen återkoppling av människor som markerar om ett svar är bra eller dåligt. Med tiden lär sig modellen vilka svar som fungerar bäst, men det finns risker – en modell kan till exempel lära sig att ge ytligt korrekta svar som lurar människor, istället för att verkligen lösa uppgiften.
Checklista
I studien med titeln Checklists Are Better Than Reward Models For Aligning Language Models föreslår Apple en ny variant: Reinforcement Learning from Checklist Feedback (RLCF). Här granskas varje svar mot en checklista med tydliga krav, där resultatet bedöms på en skala från 0 till 100.
Forskarna testade metoden på flera välkända benchmark-tester och fick konsekvent bättre resultat än med andra metoder. Bland annat gav RLCF en ökning med fyra poäng på FollowBench, sex poäng på InFoBench och tre poäng på Arena-Hard.
Checklistorna genereras automatiskt av en större språkmodell, som skapar ja/nej-krav utifrån användarens instruktioner. Dessa krav används sedan för att väga och poängsätta olika svar, vilket i sin tur blir inlärningssignalen för den mindre modellen som tränas.
Förbättringar
Resultatet blev förbättringar på upp till 8,2 procent i ett av testerna. Forskarna betonar dock att metoden är inriktad på komplexa instruktioner, inte säkerhet. Den kräver också en kraftfullare modell som domare, vilket kan ses som en begränsning.
Trots detta visar studien en enkel och lovande väg för att göra språkmodeller mer tillförlitliga i det som kanske är deras viktigaste uppgift: att förstå och följa mänskliga instruktioner. Det blir särskilt viktigt i takt med att AI-assistenter får fler agentlika funktioner och därmed större ansvar i användarnas vardag.
Källa:
Cornell University