Gemini 3 Pro tops new AI reliability benchmark, but hallucination rates remain high

av | nov 24, 2025

A new benchmark from Artificial Analysis reveals alarming weaknesses in the factual reliability of large language models. Out of 40 models tested, only four achieved a positive score – with Google’s Gemini 3 Pro clearly in the lead.

Gemini 3 Pro scored 13 points on the new Omniscience Index, which ranges from -100 to 100, substantially ahead of Claude 4.1 Opus (4.8), GPT-5.1, and Grok 4. The high score mainly reflects the model’s strong accuracy. Gemini 3 Pro outperformed Grok 4, the previously most accurate model, by 14 points. A score of 0 means a model answers questions correctly and incorrectly at the same rate. The AA-Omniscience Benchmark measures how reliably AI models retrieve factual knowledge across different subject areas.

Källa: Gemini 3 Pro tops new AI reliability benchmark, but hallucination rates remain high


Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

Magasin Macken använder AI för att samla in information och underlag för de texter som publiceras. Vi använder även AI för att skapa bilder och illustrationer. Dessa märks alltid med att det är AI-bilder om bilderna är fotorealistiska. I förekommande fall så läggs även till länkar till källa och referenser till i texterna som alltid kontrolleras av en mänsklig skribent - som är den som skriver och redigerar alla texter till alla väsentliga delar.

Vill du kommentera den här texten, komma med förslag, kritik eller ställa frågor så gör du det enklast i något av de sociala medier som jag och Magasin Macken finns med i. Länkarna hittar du nedan.

  • Facebook
  • Instagram
  • Bluesky
  • Threads
  • Mastodon
  • LinkedIn
  • YouTube
  • Vimeo
  • Twitter
  • RSS
  • E-Mail

De senaste inläggen:

Nu tänker Apple göra en Snow Leopard – igen

Nu tänker Apple göra en Snow Leopard – igen

Apple förbereder en tydlig strategisk kursändring inför nästa stora systemuppdateringar och prioriterar stabilitet, kvalitet och AI före omfattande gränssnittsnyheter. Det innebär att  iOS 27 och macOS 27 ska följa samma filosofi som Snow Leopard gjorde 2009, då Apple bromsade funktionsracet…

läs mer