FACTS benchmark shows that even top AI models struggle with the truth

av Mikael Winterkvist | dec 11, 2025

A new benchmark from Google Deepmind aims to measure AI model reliability more comprehensively than ever before. The results reveal that even top-tier models like Gemini 3 Pro and GPT-5.1 are far from perfect.

Researchers at Google Deepmind have introduced the FACTS Benchmark, a testing environment designed to evaluate the factual accuracy of large language models (LLMs) across multiple disciplines. The benchmark aggregates performance in four specific categories: visual understanding, internal knowledge, web search, and text-based evidence.

Källa: FACTS benchmark shows that even top AI models struggle with the truth

0 kommentarer

Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

Vi använder AI som hjälpmedel
Magasin Macken använder AI för att skapa illustrationer till våra texter. Undantagsvis skapar vi fotorealistiska bilder, i de fallen märks bilden tydligt med att den är skapad med AI. Vi använder även AI för att samla in underlag för våra texter, fakta, statistik och referenser. Alla uppgifter kontrolleras före publicering. AI används även för våra script och plugins.

_____________________________________________________________________________________

Följ oss i Sociala Medier:

Mikael Winterkvist

Fyrabarns-far, farfar, morfar och egen företagare i Skellefteå med kliande fingrar. Jag skriver om fotografering, sport, dataprylar, politik, nöje, musik och film. Vid sidan av den här bloggen så jobbar jag med med det egna företaget Winterkvist.com. Familjen består av hustru, fyra barn (utflugna) och fem barnbarn.

Jag har hållit på med datorer sedan tidigt 1980-tal och drev Artic BBS innan Internet knappt existerade. Efter BBS-tiden har det blivit hemsidor, design, digitala medier och trycksaker. Under tiden som journalist jobbade jag med Mac men privat har det varit Windows som har gällt fram till vintern 2007. Då var det dags att byta och då bytte vi, företaget, helt produktionsplattform till macOS. På den vägen är det.

_____________________________________________________________________________________

Anmäl dig till Magasin Mackens nyhetsbrev

Du får förhandsinformation om Macken, våra planer och du får informationen, först och direkt till din mail. Vi lovar att inte skicka din information vidare och vi lovar att inte skicka ut mer än max ett nyhetsbrev per månad.

Anmäl dig här

_____________________________________________________________________________________

Vi använder AI som hjälpmedel
Magasin Macken använder AI för att skapa illustrationer till våra texter. Undantagsvis skapar vi fotorealistiska bilder, i de fallen märks bilden tydligt med att den är skapad med AI. Vi använder även AI för att samla in underlag för våra texter, fakta, statistik och referenser. Alla uppgifter kontrolleras före publicering. AI används även för våra script och plugins.

_____________________________________________________________________________________

Följ oss i Sociala Medier:

De senaste inläggen:

« Äldre inlägg

FACTS benchmark shows that even top AI models struggle with the truth

0 kommentarer

Mikael Winterkvist

Mikael Winterkvist

De senaste inläggen:

Apple testar vidare iOS 26.4 – här är nyheterna i senaste betan

Community Day: Petunior tar över i Pikmin Bloom – dags att gå 10 000 steg

Jeff Daniels klar för Apples The Morning Show