Gemini 3 Pro tops new AI reliability benchmark, but hallucination rates remain high

av Mikael Winterkvist | nov 24, 2025

A new benchmark from Artificial Analysis reveals alarming weaknesses in the factual reliability of large language models. Out of 40 models tested, only four achieved a positive score – with Google’s Gemini 3 Pro clearly in the lead.

Gemini 3 Pro scored 13 points on the new Omniscience Index, which ranges from -100 to 100, substantially ahead of Claude 4.1 Opus (4.8), GPT-5.1, and Grok 4. The high score mainly reflects the model’s strong accuracy. Gemini 3 Pro outperformed Grok 4, the previously most accurate model, by 14 points. A score of 0 means a model answers questions correctly and incorrectly at the same rate. The AA-Omniscience Benchmark measures how reliably AI models retrieve factual knowledge across different subject areas.

Källa: Gemini 3 Pro tops new AI reliability benchmark, but hallucination rates remain high

Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

Magasin Macken använder AI för att samla in information och underlag för de texter som publiceras. Vi använder även AI för att skapa bilder och illustrationer. Dessa märks alltid med att det är AI-bilder om bilderna är fotorealistiska. I förekommande fall så läggs även till länkar till källa och referenser till i texterna som alltid kontrolleras av en mänsklig skribent - som är den som skriver och redigerar alla texter till alla väsentliga delar.

Vill du kommentera den här texten, komma med förslag, kritik eller ställa frågor så gör du det enklast i något av de sociala medier som jag och Magasin Macken finns med i. Länkarna hittar du nedan.

De senaste inläggen:

Nu tänker Apple göra en Snow Leopard – igen

Apple förbereder en tydlig strategisk kursändring inför nästa stora systemuppdateringar och prioriterar stabilitet, kvalitet och AI före omfattande gränssnittsnyheter. Det innebär att iOS 27 och macOS 27 ska följa samma filosofi som Snow Leopard gjorde 2009, då Apple bromsade funktionsracet…

läs mer

Gratis är gott: AltTab – hoppa mellan program som Windows gör det

Kommer du från Windows-världen så kanske du är van vid att kunna hoppa mellan programfönster med Alt+Tab. Det är exakt det AltTab gör. AltTab är översatt till svenska och en rad andra språk – och programmet är helt gratis. Installation…

läs mer

Termius testat: Ett kraftfullt terminalprogram – helt gratis

Termius finns för macOS och för iOS/iPadOS och det är gratis i den enklaste bas-versionen. Vill du extrafunktioner, synkning mellan enheter med mera så kan du köpa ett abonnemang. Det finns förvisso ett inbyggt Terminal i macOS som är helt…

läs mer

« Äldre inlägg