Umělá inteligenceApril 8, 2025|4 min

Mesterséges intelligencia az IQ‑tesztekben: ki menne át a Mensán, és mit jelent ez?

Az elmúlt években a mesterséges intelligencia új szintre emelte a vitát arról, hogy a nyelvi modellek mennyire képesek valóban „gondolkodni”, és hol ér véget a fejlett mintázat‑predikció...

Tým Apertia

Apertia.ai

Az elmúlt években a mesterséges intelligencia új szintre emelte a vitát arról, mennyire képesek a nyelvi modellek valóban „gondolkodni”, és hol ér véget a puszta, fejlett nyelvi mintázat‑predikció.

Miközben az AI‑értékelések jellemzően a fordításra, a szövegértésre vagy a kódgenerálásra koncentrálnak, megjelent egy új tesztelési irány, amely a modellek hagyományos analitikus és kognitív képességeit vizsgálja – vagyis azt, amit általában intelligenciának nevezünk.

A TrackingAI.org projekt teljesen új perspektívát hoz ebbe a vitába. Úgy döntöttek, hogy a nyelvi modelleket olyan feladatokon tesztelik, amelyeket hagyományosan emberi IQ‑tesztekben használnak, például a Raven‑féle progresszív mátrixokon vagy a Mensa Norway teszten.

AI‑modellek tesztelése IQ‑tesztekkel

Az IQ‑tesztek – amelyek a mintafelismerésre, a deduktív érvelésre és a struktúrák megértésére épülnek – eddig az emberi intelligencia terepei voltak. A TrackingAI platform eredményei azonban azt mutatják, hogy ezek a tesztek a mesterséges intelligenciára is alkalmazhatók, méghozzá érdekes következményekkel.

A TrackingAI két fő teszttípust használ:

Offline IQ‑tesztek – függetlenül létrehozott feladatok, amelyek nem szerepelnek a modellek tréningadataiban.
Standardizált Mensa Norway teszt, amelyet általában az emberi IQ értékelésére használnak.

Az eredmények szerint egyes modellek (pl. Gemini 2.5 Pro, Claude 3 vagy GPT‑4.5) 110 feletti IQ‑küszöböt érnek el, ami emberi mércével átlag feletti intelligenciának felelne meg.

Want a Custom AI Solution?

We help companies automate processes with AI. Contact us to find out how we can help you.

Response within 24 hours
No-obligation consultation
Solutions tailored to your business

Más modellek – köztük a korábbi Llama‑verziók vagy egyes vizuális modellek – ezzel szemben a 60–80 pontos tartományban mozognak, ami átlag alatti eredmény.

Mely AI‑modellek érik el a legmagasabb IQ‑t?

Az alábbi táblázat a kiválasztott, 2025 áprilisában tesztelt modellek aktuális eredményeit foglalja össze. Az átlagos pontszám a két tesztsorozat eredményeinek számtani átlaga:

Modell	Offline teszt	Mensa Norway	átlagos IQ
Gemini	128	116	122
OpenAI o1 Pro	120	110	115
Claude	120	107	113,5
OpenAI o3 mini	119	106	112,5
GPT‑4.5 Preview	106	101	103,5
Llama 4 Maverick	106	97	101,5

Érdekes, hogy a nyelvi megértésben kiemelkedő teljesítményt nyújtó modellek nem mindig a legjobbak a logikai tesztekben. A multimodális architektúrák, amelyek szöveges és vizuális bemeneteket kombinálnak, még nem mutatnak stabil teljesítményt az egyes feladattípusokban.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/