Umělá inteligence v IQ testech: Kdo by prošel Mensou a co to znamená?

Umělá inteligence

8 dubna, 2025

Umělá inteligence v posledních letech rozšířila debata o tom, nakolik jsou jazykové modely schopné skutečně „myslet“ , a kde končí jen pokročilá predikce slovních vzorců.

Zatímco hodnocení AI se soustředí na výkon v překladu, porozumění textu nebo generování kódu, nový směr testování se zaměřením na tradiční analytické a kognitivní schopnosti modelů – tedyběžně jako– tedy na to, běžně označujeme jako inteligenci.

Projekt TrackingAI.org přináší tuto debatu zcela nový pohled. Rozhodli se testovat jazykové modely na úlohách běžně používaných testech při lidských IQ testech , jako jsou Ravenovy matice nebo Mensa Norway.

Testování AI modelů pomocí IQ testů

IQ testy – postavené na schopnosti rozpoznat vzory, deduktivně uvažovat a chápat strukturu – byly dosud doménou lidské inteligence. Jak ale ukazují výsledky z platformy TrackingAI, je možné tyto testy aplikovat i na umělou inteligenci , a to se zajímavými důsledky.

TrackingAI využívá dva hlavní typy testování:

Offline IQ testy – úlohy vytvořené nezávisle, bez výskytu v tréninkových datech modelů.
Standardizovaný test Mensa Norway , běžně pro hodnocení lidského IQ.

Výsledky ukazují, že některé modely (např. Gemini 2.5 Pro, Claude 3 nebo GPT-4.5) dosahují výsledků nad hranicí IQ 110, což by v lidském měřítku odpovídalo nadprůměrné inteligenci.

Naproti tomu jiné, včetně dřívějších verzí Llamy nebo některých vizuálních modelů, pohybují se na hranici 60–80 bodů, což je pod průměrem.

Jaké AI modely dosahují nejvyššího IQ?

Níže uvedená tabulka shrnuje aktuální výsledky vybraných testovaných modelů v dubnu 2025. Průměrné skóre je vypočteno jako aritmetický průměr výsledků z obou testovacích sad:

Model	Offline test	Mensa Norsko	střední IQ
Blíženci	128	116	122
OpenAI o1 Pro	120	110	115
Claude	120	107	113,5
OpenAI o3 mini	119	106	112,5
Náhled GPT-4.5	106	101	103,5
Lama 4 Maverick	106	97	101,5

Zajímavé je, že modely s vysokým výkonem v jazykovém porozumění nejsou vždy nejlepší v logickém testování. Multimodální architekturavstupy ,, které kombinují textové a vizuální vstupy, zatím nedosahují stabilního výkonu napříč úlohami.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/

Kontaktujte nás

Logická hádanka 3×3 jako test uvažování

Jednou z nejpoužívanějších úloh v testování modelů je logická mřížka 3×3 – forma matického testu, ve které je každá buňka vyplněna třemi geometrickými tvary v různém uspořádání a výplni. Cílem je doplnit chybějící devátou buňku pravidelnosti nebo skrytého vzoru.

Tato úloha byla zadána celé řadě jazykových modelů – mezi nimi i GPT-4o, Claude 3, Llama 4 Maverick, Gemini 2.5 Pro či Grok-3. Každý model se bude vypořádal jinak:

GPT-4o (OpenAI) analyzoval permutace symbolů, pořadí a rotaci. Výstup byl správný, i když vysvětlení bylo čistě vizuální.
Claude 3 Opus (Anthropic) vsadil na aritmetickou logiku a vyvážené zastoupení tvarů v řádcích a sloupcích.
Llama 4 Maverick (Meta) zvolil hybridní přístup, kombinoval vizuální strukturu se statistickou – a uspěl.
Gemini (Google) aplikoval sekvenční logiku a poznal cyklický vzorec.

Výsledek? Správná odpověď byla pouze jedna , ale cesta k ní se u každého modelu výrazně lišila. Právě způsob uvažování, nikoli jen výstup, byl předmětem zkoumání.

„Nezajímá nás pouze to, zda model odpoví správně. Zajímá nás, jak se k odpovědi propracoval.“
(TrackingAI.org, 2025)

Umělá inteligence a lidské IQ: Má srovnání smysl?

Z hlediska psychometrie má IQ skóre u AI samozřejmě jinou váhu než u člověka. Lidé mají vrozenou intuici, kontextové myšlení, kulturní rámce. AI se pohybuje výhradně na základě dat a vzorců. Přesto pomocí IQ testů přináší přínos testování: umožňuje srovnávat způsoby řešení problémů napříč modely a sledovat, zda AI rozumí principům, nikoliv jen výsledkům .

Inteligence AI je měřitelná

Výsledky platformy TrackingAI potvrzují, že měření inteligence jazykových modelů je možné – a dokonce užitečné. Ukazuje, že mezi modely existují značné rozdíly v typu uvažování, v přístupu k problému i ve schopnosti přenášet znalosti mezi úlohami.

Zda je to už „inteligence“ v lidském smyslu, je otázka definice. Ale že se AI přibližuje k tomu, co bychom mohli nazvat kognitivní schopnosti , o tom není pochyb.

Umělá inteligence v IQ testech: Kdo by prošel Mensou a co to znamená?

Testování AI modelů pomocí IQ testů

Jaké AI modely dosahují nejvyššího IQ?

Kontaktujte nás

Logická hádanka 3×3 jako test uvažování

Umělá inteligence a lidské IQ: Má srovnání smysl?

Inteligence AI je měřitelná

GPT-5.2-Codex

Meta SAM 3 a SAM 3D

Čínský DeepSeek představil průlomové AI modely

Děkujeme!