Vai al contenuto principaleVai al contenuto principale
Intelligenza artificiale nei test di QI: chi supererebbe Mensa e cosa significa?
Umělá inteligenceApril 8, 2025|4 min

Intelligenza artificiale nei test di QI: chi supererebbe Mensa e cosa significa?

Negli ultimi anni l’intelligenza artificiale ha ampliato il dibattito su quanto i modelli linguistici siano davvero in grado di “pensare” e dove finisca la semplice previsione avanzata di schemi verbali...

T
Tým Apertia
Apertia.ai
Share:

Negli ultimi anni l’intelligenza artificiale ha ampliato il dibattito su quanto i modelli linguistici siano davvero in grado di “pensare” e su dove finisca la semplice previsione avanzata di schemi verbali.

Mentre la valutazione dell’AI si concentra su traduzione, comprensione del testo o generazione di codice, una nuova direzione di test si concentra sulle capacità analitiche e cognitive dei modelli – cioè su ciò che comunemente chiamiamo intelligenza.

Il progetto TrackingAI.org offre una prospettiva del tutto nuova su questo dibattito. Hanno deciso di testare i modelli linguistici su compiti comunemente usati nei test di QI umani, come le matrici di Raven o Mensa Norway.

Testare i modelli AI con test di QI

I test di QI – basati sulla capacità di riconoscere schemi, ragionare in modo deduttivo e comprendere la struttura – sono stati finora il dominio dell’intelligenza umana. Come mostrano i risultati della piattaforma TrackingAI, è possibile applicare questi test anche all’intelligenza artificiale, con conseguenze interessanti.

TrackingAI utilizza due principali tipi di test:

  1. Test di QI offline – compiti creati in modo indipendente, senza comparire nei dati di addestramento dei modelli.

  2. Test standardizzato Mensa Norway, comunemente usato per valutare il QI umano.

I risultati mostrano che alcuni modelli (ad es. Gemini 2.5 Pro, Claude 3 o GPT-4.5) raggiungono punteggi sopra la soglia di QI 110, che su scala umana corrisponde a un’intelligenza superiore alla media.

Want a Custom AI Solution?

We help companies automate processes with AI. Contact us to find out how we can help you.

  • Response within 24 hours
  • No-obligation consultation
  • Solutions tailored to your business
More contacts

Al contrario, altri, incluse le versioni precedenti di Llama o alcuni modelli visivi, si muovono nell’intervallo 60–80 punti, quindi sotto la media.

Quali modelli AI raggiungono il QI più alto?

La tabella seguente riassume i risultati più recenti di alcuni modelli testati nell’aprile 2025. Il punteggio medio è calcolato come media aritmetica dei risultati di entrambe le serie di test:

Modello Test offline Mensa Norvegia QI medio
Gemini 128 116 122
OpenAI o1 Pro 120 110 115
Claude 120 107 113,5
OpenAI o3 mini 119 106 112,5
Anteprima GPT-4.5 106 101 103,5
Llama 4 Maverick 106 97 101,5

È interessante notare che i modelli con alte prestazioni nella comprensione linguistica non sono sempre i migliori nei test logici. Le architetture multimodali che combinano input testuali e visivi non raggiungono ancora prestazioni stabili tra i diversi compiti.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/
Ready to start?

Interested in this article?

Let's explore together how AI can transform your business.

Contact us