AI modely & technologie8. dubna 2025|4 min

Umělá inteligence v IQ testech: Kdo by prošel Mensou a co to znamená?

Umělá inteligence v posledních letech rozšířila debata o tom, nakolik jsou jazykové modely schopné skutečně „myslet" , a kde končí jen pokročilá predikce slo...“

Tým Apertia

Apertia.ai

Sdílet:

Umělá inteligence v posledních letech rozšířila debata o tom, nakolik jsou jazykové modely schopné skutečně „myslet“ , a kde končí jen pokročilá predikce slovních vzorců.

Zatímco hodnocení AI se soustředí na výkon v překladu, porozumění textu nebo generování kódu, nový směr testování se zaměřením na tradiční analytické a kognitivní schopnosti modelů – tedyběžně jako– tedy na to, běžně označujeme jako inteligenci.

Projekt TrackingAI.org přináší tuto debatu zcela nový pohled. Rozhodli se testovat jazykové modely na úlohách běžně používaných testech při lidských IQ testech , jako jsou Ravenovy matice nebo Mensa Norway.

Testování AI modelů pomocí IQ testů

IQ testy – postavené na schopnosti rozpoznat vzory, deduktivně uvažovat a chápat strukturu – byly dosud doménou lidské inteligence. Jak ale ukazují výsledky z platformy TrackingAI, je možné tyto testy aplikovat i na umělou inteligenci , a to se zajímavými důsledky.

TrackingAI využívá dva hlavní typy testování:

Offline IQ testy – úlohy vytvořené nezávisle, bez výskytu v tréninkových datech modelů.
Standardizovaný test Mensa Norway , běžně pro hodnocení lidského IQ.

Výsledky ukazují, že některé modely (např. Gemini 2.5 Pro, Claude 3 nebo GPT-4.5) dosahují výsledků nad hranicí IQ 110, což by v lidském měřítku odpovídalo nadprůměrné inteligenci.

Naproti tomu jiné, včetně dřívějších verzí Llamy nebo některých vizuálních modelů, pohybují se na hranici 60–80 bodů, což je pod průměrem.

Chcete AI řešení na míru?

Pomoháme firmám automatizovat procesy pomocí AI. Napište nám a zjistěte, jak můžeme pomoci právě vám.

Odpověď do 24 hodin
Nezávazná konzultace
Řešení na míru vaší firmě

Jaké AI modely dosahují nejvyššího IQ?

Níže uvedená tabulka shrnuje aktuální výsledky vybraných testovaných modelů v dubnu 2025. Průměrné skóre je vypočteno jako aritmetický průměr výsledků z obou testovacích sad:

Model	Offline test	Mensa Norsko	střední IQ
Blíženci	128	116	122
OpenAI o1 Pro	120	110	115
Claude	120	107	113,5
OpenAI o3 mini	119	106	112,5
Náhled GPT-4.5	106	101	103,5
Lama 4 Maverick	106	97	101,5

Zajímavé je, že modely s vysokým výkonem v jazykovém porozumění nejsou vždy nejlepší v logickém testování. Multimodální architekturavstupy ,, které kombinují textové a vizuální vstupy, zatím nedosahují stabilního výkonu napříč úlohami.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/