OpenAI har lanserat gpt-oss-20b, en ny språkmodell som gör det möjligt att köra ChatGPT-liknande AI helt lokalt på Mac utan abonnemang, internetanslutning eller externa servrar. Modellen, som släpptes den 5 augusti, är den första öppet tillgängliga språkmodellen från OpenAI på flera år och ger Mac-användare möjlighet att köra avancerad AI-bearbetning offline.
Med rätt konfiguration kan många Apple Silicon-datorer hantera modellen direkt på enheten.
Tidigare har kraftfulla AI-modeller på Mac krävt molntjänster eller komplex serverinstallation. Med gpt-oss-20b och den större gpt-oss-120b går det i stället att ladda ner modellvikterna och använda dem i verktyg som LM Studio och Ollama. Den som vill kan prova modellerna gratis i webbläsaren via gpt-oss.com innan nedladdning, för att testa hur de hanterar text, kod och generella frågor.
M2
För bästa resultat rekommenderas minst en M2-processor och 16 GB RAM. Har du en M1 är Max- eller Ultra-versionen att föredra. Mac Studio är ett bra val tack vare bättre kylning. Test visar att modellen fungerar även på MacBook Air med M3-chip och 16 GB RAM, men med längre svarstider och högre värmeutveckling.
För att komma igång behövs något av följande verktyg:
– LM Studio, en gratisapp med grafiskt gränssnitt
– Ollama, ett kommandoradsverktyg med modellhantering
– MLX, Apples maskininlärningsramverk som används av båda apparna för acceleration
Dessa verktyg hanterar nedladdning, installation och kompatibilitetskontroll. Med Ollama kan du köra gpt-oss-20b genom att installera programmet enligt instruktionerna på dess webbplats, öppna Terminal och skriva ollama run gpt-oss-20b. Verktyget laddar då ner rätt kvantiserade version av modellen, omkring 12 GB, och startar upp den. När nedladdningen är klar visas en prompt där du kan börja skriva direkt. Allt körs lokalt, utan att någon data lämnar datorn.
20 miljarder
Gpt-oss-20b har 20 miljarder parametrar och är komprimerad till ett 4-bitarsformat, vilket gör att den kan köras smidigt på Mac med 16 GB RAM för uppgifter som textskrivning, sammanfattningar, frågesvar, kodgenerering och strukturerade funktionsanrop. Den större gpt-oss-120b kräver 60–80 GB RAM och lämpar sig för kraftfulla arbetsstationer eller forskningsmiljöer.
Att köra AI lokalt ger fördelar som fullständig dataintegritet, eftersom ingen information skickas till externa servrar, och eliminerar behovet av abonnemang och API-avgifter. Det minskar även svarstiden eftersom inga nätverksanrop behövs. Modellerna är licensierade under Apache 2.0, vilket gör att de kan finjusteras för egna projekt och arbetsflöden.
Komplexa
Prestandan är lägre än för molnbaserade modeller som GPT-4o, särskilt vid komplexa uppgifter, och vissa svar kan kräva efterbearbetning. För vardagsskrivande, enklare kodning och research fungerar gpt-oss-20b ändå bra. För den som värdesätter integritet och kontroll mer än hastighet är detta ett av de bästa alternativen som går att köra helt offline.
För bästa upplevelse rekommenderas en kvantiserad version, vilket minskar precisionen från 16-bitars flyttal till 8-bitars eller 4-bitars heltal. Detta reducerar minnesanvändningen kraftigt utan att påverka noggrannheten nämnvärt. Gpt-oss-20b använder 4-bitarsformatet MXFP4, som möjliggör drift på Mac med 16 GB RAM. Har du mindre minne bör du välja en mindre modell på 3–7 miljarder parametrar, stänga andra minneskrävande appar och aktivera MLX- eller Metal-acceleration om det finns tillgängligt.
Källa:
Apple Insider