Umelá inteligencia v posledných rokoch rozšírila diskusiu o tom, nakoľko sú jazykové modely schopné skutočne „myslieť“ a kde sa končí iba pokročilá predikcia slovných vzorcov.
Kým hodnotenie AI sa často sústreďuje na výkon v preklade, porozumení textu alebo generovaní kódu, nový smer testovania sa zameriava na tradičné analytické a kognitívne schopnosti modelov - teda na to, čo bežne označujeme ako inteligenciu.
Projekt TrackingAI.org prináša do tejto debaty nový pohľad. Rozhodol sa testovať jazykové modely na úlohách bežne používaných pri ľudských IQ testoch, ako sú Ravenove matice alebo Mensa Norway.
Testovanie AI modelov pomocou IQ testov
IQ testy - postavené na schopnosti rozpoznať vzory, deduktívne uvažovať a chápať štruktúru - boli doteraz doménou ľudskej inteligencie. Ako však ukazujú výsledky z platformy TrackingAI, tieto testy možno aplikovať aj na umelú inteligenciu, a to so zaujímavými dôsledkami.
TrackingAI používa dva hlavné typy testovania:
-
Offline IQ testy - úlohy vytvorené nezávisle, bez výskytu v tréningových dátach modelov.
-
Štandardizovaný test Mensa Norway, bežne používaný na hodnotenie ľudského IQ.
Výsledky ukazujú, že niektoré modely, napríklad Gemini 2.5 Pro, Claude 3 alebo GPT-4.5, dosahujú výsledky nad hranicou IQ 110, čo by v ľudskom meradle zodpovedalo nadpriemernej inteligencii.
Naopak iné modely, vrátane skorších verzií Llamy alebo niektorých vizuálnych modelov, sa pohybujú na úrovni 60-80 bodov, teda pod priemerom.



