Negli ultimi anni l’intelligenza artificiale ha ampliato il dibattito su quanto i modelli linguistici siano davvero in grado di “pensare” e su dove finisca la semplice previsione avanzata di schemi verbali.
Mentre la valutazione dell’AI si concentra su traduzione, comprensione del testo o generazione di codice, una nuova direzione di test si concentra sulle capacità analitiche e cognitive dei modelli – cioè su ciò che comunemente chiamiamo intelligenza.
Il progetto TrackingAI.org offre una prospettiva del tutto nuova su questo dibattito. Hanno deciso di testare i modelli linguistici su compiti comunemente usati nei test di QI umani, come le matrici di Raven o Mensa Norway.
Testare i modelli AI con test di QI
I test di QI – basati sulla capacità di riconoscere schemi, ragionare in modo deduttivo e comprendere la struttura – sono stati finora il dominio dell’intelligenza umana. Come mostrano i risultati della piattaforma TrackingAI, è possibile applicare questi test anche all’intelligenza artificiale, con conseguenze interessanti.
TrackingAI utilizza due principali tipi di test:
-
Test di QI offline – compiti creati in modo indipendente, senza comparire nei dati di addestramento dei modelli.
-
Test standardizzato Mensa Norway, comunemente usato per valutare il QI umano.
I risultati mostrano che alcuni modelli (ad es. Gemini 2.5 Pro, Claude 3 o GPT-4.5) raggiungono punteggi sopra la soglia di QI 110, che su scala umana corrisponde a un’intelligenza superiore alla media.


