Umělá inteligence v IQ testech: Kdo by prošel Mensou a co to znamená?

8 dubna, 2025

Umělá inteligence v posledních letech rozšířila debata o tom, nakolik jsou jazykové modely schopné skutečně „myslet“ , a kde končí jen pokročilá predikce slovních vzorců.

Zatímco hodnocení AI se soustředí na výkon v překladu, porozumění textu nebo generování kódu, nový směr testování se zaměřením na tradiční analytické a kognitivní schopnosti modelůtedyběžně jako– tedy na to, běžně označujeme jako inteligenci.

Projekt TrackingAI.org přináší tuto debatu zcela nový pohled. Rozhodli se testovat jazykové modely na úlohách běžně používaných testech při lidských IQ testech , jako jsou Ravenovy matice nebo Mensa Norway.

Testování AI modelů pomocí IQ testů

IQ testy – postavené na schopnosti rozpoznat vzory, deduktivně uvažovat a chápat strukturu – byly dosud doménou lidské inteligence. Jak ale ukazují výsledky z platformy TrackingAI, je možné tyto testy aplikovat i na umělou inteligenci , a to se zajímavými důsledky.

TrackingAI využívá dva hlavní typy testování:

  1. Offline IQ testy – úlohy vytvořené nezávisle, bez výskytu v tréninkových datech modelů.

  2. Standardizovaný test Mensa Norway , běžně pro hodnocení lidského IQ.

Výsledky ukazují, že některé modely (např. Gemini 2.5 Pro, Claude 3 nebo GPT-4.5) dosahují výsledků nad hranicí IQ 110, což by v lidském měřítku odpovídalo nadprůměrné inteligenci.

Naproti tomu jiné, včetně dřívějších verzí Llamy nebo některých vizuálních modelů, pohybují se na hranici 60–80 bodů, což je pod průměrem.

Jaké AI modely dosahují nejvyššího IQ?

Níže uvedená tabulka shrnuje aktuální výsledky vybraných testovaných modelů v dubnu 2025. Průměrné skóre je vypočteno jako aritmetický průměr výsledků z obou testovacích sad:

ModelOffline testMensa Norskostřední IQ
Blíženci128116122
OpenAI o1 Pro120110115
Claude120107113,5
OpenAI o3 mini119106112,5
Náhled GPT-4.5106101103,5
Lama 4 Maverick10697101,5

Zajímavé je, že modely s vysokým výkonem v jazykovém porozumění nejsou vždy nejlepší v logickém testování. Multimodální architekturavstupy ,, které kombinují textové a vizuální vstupy, zatím nedosahují stabilního výkonu napříč úlohami.

Kontaktujte nás

Logická hádanka 3×3 jako test uvažování

Jednou z nejpoužívanějších úloh v testování modelů je logická mřížka 3×3 – forma matického testu, ve které je každá buňka vyplněna třemi geometrickými tvary v různém uspořádání a výplni. Cílem je doplnit chybějící devátou buňku pravidelnosti nebo skrytého vzoru.

Tato úloha byla zadána celé řadě jazykových modelů – mezi nimi i GPT-4o, Claude 3, Llama 4 Maverick, Gemini 2.5 Pro či Grok-3. Každý model se bude vypořádal jinak:

  • GPT-4o (OpenAI) analyzoval permutace symbolů, pořadí a rotaci. Výstup byl správný, i když vysvětlení bylo čistě vizuální.

  • Claude 3 Opus (Anthropic) vsadil na aritmetickou logiku a vyvážené zastoupení tvarů v řádcích a sloupcích.

  • Llama 4 Maverick (Meta) zvolil hybridní přístup, kombinoval vizuální strukturu se statistickou – a uspěl.

  • Gemini (Google) aplikoval sekvenční logiku a poznal cyklický vzorec.

Výsledek? Správná odpověď byla pouze jedna , ale cesta k ní se u každého modelu výrazně lišila. Právě způsob uvažování, nikoli jen výstup, byl předmětem zkoumání.

„Nezajímá nás pouze to, zda model odpoví správně. Zajímá nás, jak se k odpovědi propracoval.“
(TrackingAI.org, 2025)

Umělá inteligence a lidské IQ: Má srovnání smysl?

Z hlediska psychometrie má IQ skóre u AI samozřejmě jinou váhu než u člověka. Lidé mají vrozenou intuici, kontextové myšlení, kulturní rámce. AI se pohybuje výhradně na základě dat a vzorců. Přesto pomocí IQ testů přináší přínos testování: umožňuje srovnávat způsoby řešení problémů napříč modely a sledovat, zda AI rozumí principům, nikoliv jen výsledkům .

Inteligence AI je měřitelná

Výsledky platformy TrackingAI potvrzují, že měření inteligence jazykových modelů je možné – a dokonce užitečné. Ukazuje, že mezi modely existují značné rozdíly v typu uvažování, v přístupu k problému i ve schopnosti přenášet znalosti mezi úlohami.

Zda je to už „inteligence“ v lidském smyslu, je otázka definice. Ale že se AI přibližuje k tomu, co bychom mohli nazvat kognitivní schopnosti , o tom není pochyb.

o4-mini

OpenAI O4-Mini: rozpoznávání obrazů a počítačové vidění

Programování

O3-mini: Programování s OpenAI

Umělá inteligence

Umělá inteligence v IQ testech: Kdo by prošel Mensou a co to znamená?

Děkujeme!

Velice si važíme Vašeho zájmu o naše AI agenty.

Ozveme se Vám v nejbližších dnech.