Umělá inteligence v posledních letech rozšířila debata o tom, nakolik jsou jazykové modely schopné skutečně „myslet“ , a kde končí jen pokročilá predikce slovních vzorců.
Zatímco hodnocení AI se soustředí na výkon v překladu, porozumění textu nebo generování kódu, nový směr testování se zaměřením na tradiční analytické a kognitivní schopnosti modelů – tedyběžně jako– tedy na to, běžně označujeme jako inteligenci.
Projekt TrackingAI.org přináší tuto debatu zcela nový pohled. Rozhodli se testovat jazykové modely na úlohách běžně používaných testech při lidských IQ testech , jako jsou Ravenovy matice nebo Mensa Norway.
Testování AI modelů pomocí IQ testů
IQ testy – postavené na schopnosti rozpoznat vzory, deduktivně uvažovat a chápat strukturu – byly dosud doménou lidské inteligence. Jak ale ukazují výsledky z platformy TrackingAI, je možné tyto testy aplikovat i na umělou inteligenci , a to se zajímavými důsledky.
TrackingAI využívá dva hlavní typy testování:
Offline IQ testy – úlohy vytvořené nezávisle, bez výskytu v tréninkových datech modelů.
Standardizovaný test Mensa Norway , běžně pro hodnocení lidského IQ.
Výsledky ukazují, že některé modely (např. Gemini 2.5 Pro, Claude 3 nebo GPT-4.5) dosahují výsledků nad hranicí IQ 110, což by v lidském měřítku odpovídalo nadprůměrné inteligenci.
Naproti tomu jiné, včetně dřívějších verzí Llamy nebo některých vizuálních modelů, pohybují se na hranici 60–80 bodů, což je pod průměrem.
Jaké AI modely dosahují nejvyššího IQ?
Níže uvedená tabulka shrnuje aktuální výsledky vybraných testovaných modelů v dubnu 2025. Průměrné skóre je vypočteno jako aritmetický průměr výsledků z obou testovacích sad:
Model | Offline test | Mensa Norsko | střední IQ |
---|---|---|---|
Blíženci | 128 | 116 | 122 |
OpenAI o1 Pro | 120 | 110 | 115 |
Claude | 120 | 107 | 113,5 |
OpenAI o3 mini | 119 | 106 | 112,5 |
Náhled GPT-4.5 | 106 | 101 | 103,5 |
Lama 4 Maverick | 106 | 97 | 101,5 |
Zajímavé je, že modely s vysokým výkonem v jazykovém porozumění nejsou vždy nejlepší v logickém testování. Multimodální architekturavstupy ,, které kombinují textové a vizuální vstupy, zatím nedosahují stabilního výkonu napříč úlohami.