Az elmúlt években a mesterséges intelligencia új szintre emelte a vitát arról, mennyire képesek a nyelvi modellek valóban „gondolkodni”, és hol ér véget a puszta, fejlett nyelvi mintázat‑predikció.
Miközben az AI‑értékelések jellemzően a fordításra, a szövegértésre vagy a kódgenerálásra koncentrálnak, megjelent egy új tesztelési irány, amely a modellek hagyományos analitikus és kognitív képességeit vizsgálja – vagyis azt, amit általában intelligenciának nevezünk.
A TrackingAI.org projekt teljesen új perspektívát hoz ebbe a vitába. Úgy döntöttek, hogy a nyelvi modelleket olyan feladatokon tesztelik, amelyeket hagyományosan emberi IQ‑tesztekben használnak, például a Raven‑féle progresszív mátrixokon vagy a Mensa Norway teszten.
AI‑modellek tesztelése IQ‑tesztekkel
Az IQ‑tesztek – amelyek a mintafelismerésre, a deduktív érvelésre és a struktúrák megértésére épülnek – eddig az emberi intelligencia terepei voltak. A TrackingAI platform eredményei azonban azt mutatják, hogy ezek a tesztek a mesterséges intelligenciára is alkalmazhatók, méghozzá érdekes következményekkel.
A TrackingAI két fő teszttípust használ:
-
Offline IQ‑tesztek – függetlenül létrehozott feladatok, amelyek nem szerepelnek a modellek tréningadataiban.
-
Standardizált Mensa Norway teszt, amelyet általában az emberi IQ értékelésére használnak.
Az eredmények szerint egyes modellek (pl. Gemini 2.5 Pro, Claude 3 vagy GPT‑4.5) 110 feletti IQ‑küszöböt érnek el, ami emberi mércével átlag feletti intelligenciának felelne meg.


