AI modely & technologie8. apríla 2025|4 min

Umelá inteligencia v IQ testoch: kto by prešiel Mensou a čo to znamená?

Jazykové modely sa čoraz častejšie testujú aj na analytických a kognitívnych úlohách podobných ľudským IQ testom.

Tým Apertia

Apertia.ai

Zdieľať:

Umelá inteligencia v posledných rokoch rozšírila diskusiu o tom, nakoľko sú jazykové modely schopné skutočne „myslieť“ a kde sa končí iba pokročilá predikcia slovných vzorcov.

Kým hodnotenie AI sa často sústreďuje na výkon v preklade, porozumení textu alebo generovaní kódu, nový smer testovania sa zameriava na tradičné analytické a kognitívne schopnosti modelov - teda na to, čo bežne označujeme ako inteligenciu.

Projekt TrackingAI.org prináša do tejto debaty nový pohľad. Rozhodol sa testovať jazykové modely na úlohách bežne používaných pri ľudských IQ testoch, ako sú Ravenove matice alebo Mensa Norway.

Testovanie AI modelov pomocou IQ testov

IQ testy - postavené na schopnosti rozpoznať vzory, deduktívne uvažovať a chápať štruktúru - boli doteraz doménou ľudskej inteligencie. Ako však ukazujú výsledky z platformy TrackingAI, tieto testy možno aplikovať aj na umelú inteligenciu, a to so zaujímavými dôsledkami.

TrackingAI používa dva hlavné typy testovania:

Offline IQ testy - úlohy vytvorené nezávisle, bez výskytu v tréningových dátach modelov.
Štandardizovaný test Mensa Norway, bežne používaný na hodnotenie ľudského IQ.

Výsledky ukazujú, že niektoré modely, napríklad Gemini 2.5 Pro, Claude 3 alebo GPT-4.5, dosahujú výsledky nad hranicou IQ 110, čo by v ľudskom meradle zodpovedalo nadpriemernej inteligencii.

Naopak iné modely, vrátane skorších verzií Llamy alebo niektorých vizuálnych modelov, sa pohybujú na úrovni 60-80 bodov, teda pod priemerom.

Chcete AI riešenie na mieru?

Pomáhame firmám automatizovať procesy pomocou AI. Napíšte nám a zistite, ako môžeme pomôcť práve vám.

Odpoveď do 24 hodín
Nezáväzná konzultácia
Riešenia na mieru vašej firme

Ktoré AI modely dosahujú najvyššie IQ?

Nasledujúca tabuľka sumarizuje aktuálne výsledky vybraných testovaných modelov v apríli 2025. Priemerné skóre je vypočítané ako aritmetický priemer výsledkov z oboch testovacích sád:

Model	Offline test	Mensa Nórsko	priemerné IQ
Gemini	128	116	122
OpenAI o1 Pro	120	110	115
Claude	120	107	113,5
OpenAI o3 mini	119	106	112,5
GPT-4.5 Preview	106	101	103,5
Llama 4 Maverick	106	97	101,5

Zaujímavé je, že modely s vysokým výkonom v jazykovom porozumení nie sú vždy najlepšie v logickom testovaní. Multimodálna architektúra, ktorá kombinuje textové a vizuálne vstupy, zatiaľ nedosahuje stabilný výkon naprieč úlohami.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/