Umělá inteligenceApril 8, 2025|4 min

Intelligenza artificiale nei test di QI: chi supererebbe Mensa e cosa significa?

Negli ultimi anni l’intelligenza artificiale ha ampliato il dibattito su quanto i modelli linguistici siano davvero in grado di “pensare” e dove finisca la semplice previsione avanzata di schemi verbali...

Tým Apertia

Apertia.ai

Negli ultimi anni l’intelligenza artificiale ha ampliato il dibattito su quanto i modelli linguistici siano davvero in grado di “pensare” e su dove finisca la semplice previsione avanzata di schemi verbali.

Mentre la valutazione dell’AI si concentra su traduzione, comprensione del testo o generazione di codice, una nuova direzione di test si concentra sulle capacità analitiche e cognitive dei modelli – cioè su ciò che comunemente chiamiamo intelligenza.

Il progetto TrackingAI.org offre una prospettiva del tutto nuova su questo dibattito. Hanno deciso di testare i modelli linguistici su compiti comunemente usati nei test di QI umani, come le matrici di Raven o Mensa Norway.

Testare i modelli AI con test di QI

I test di QI – basati sulla capacità di riconoscere schemi, ragionare in modo deduttivo e comprendere la struttura – sono stati finora il dominio dell’intelligenza umana. Come mostrano i risultati della piattaforma TrackingAI, è possibile applicare questi test anche all’intelligenza artificiale, con conseguenze interessanti.

TrackingAI utilizza due principali tipi di test:

Test di QI offline – compiti creati in modo indipendente, senza comparire nei dati di addestramento dei modelli.
Test standardizzato Mensa Norway, comunemente usato per valutare il QI umano.

I risultati mostrano che alcuni modelli (ad es. Gemini 2.5 Pro, Claude 3 o GPT-4.5) raggiungono punteggi sopra la soglia di QI 110, che su scala umana corrisponde a un’intelligenza superiore alla media.

Want a Custom AI Solution?

We help companies automate processes with AI. Contact us to find out how we can help you.

Response within 24 hours
No-obligation consultation
Solutions tailored to your business

Al contrario, altri, incluse le versioni precedenti di Llama o alcuni modelli visivi, si muovono nell’intervallo 60–80 punti, quindi sotto la media.

Quali modelli AI raggiungono il QI più alto?

La tabella seguente riassume i risultati più recenti di alcuni modelli testati nell’aprile 2025. Il punteggio medio è calcolato come media aritmetica dei risultati di entrambe le serie di test:

Modello	Test offline	Mensa Norvegia	QI medio
Gemini	128	116	122
OpenAI o1 Pro	120	110	115
Claude	120	107	113,5
OpenAI o3 mini	119	106	112,5
Anteprima GPT-4.5	106	101	103,5
Llama 4 Maverick	106	97	101,5

È interessante notare che i modelli con alte prestazioni nella comprensione linguistica non sono sempre i migliori nei test logici. Le architetture multimodali che combinano input testuali e visivi non raggiungono ancora prestazioni stabili tra i diversi compiti.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/