Ces dernières années, l'intelligence artificielle a élargi le débat sur la capacité réelle des modèles de langage à « penser » et sur les limites de la prédiction avancée de schémas linguistiques.
Alors que l'évaluation de l'IA se concentre sur les performances en traduction, compréhension de texte ou génération de code, une nouvelle direction de test se focalise sur les capacités analytiques et cognitives traditionnelles des modèles – c'est-à-dire ce que nous appelons communément l'intelligence.
Le projet TrackingAI.org apporte une perspective entièrement nouvelle à ce débat. Ils ont décidé de tester les modèles de langage sur des tâches couramment utilisées dans les tests de QI humains, telles que les Matrices Progressives de Raven ou le test Mensa Norway.
Tester les modèles d'IA avec des tests de QI
Les tests de QI – fondés sur la capacité à reconnaître des schémas, à raisonner de manière déductive et à comprendre des structures – ont jusqu'ici été le domaine de l'intelligence humaine. Cependant, comme le montrent les résultats de la plateforme TrackingAI, il est possible d'appliquer ces tests également à l'intelligence artificielle, avec des implications intéressantes.
TrackingAI utilise deux principaux types de tests :
-
Tests de QI hors ligne – des tâches créées indépendamment, sans apparaître dans les données d'entraînement des modèles.
-
Test standardisé Mensa Norway, couramment utilisé pour évaluer le QI humain.
Les résultats montrent que certains modèles (par ex. Gemini 2.5 Pro, Claude 3 ou GPT-4.5) obtiennent des résultats au-dessus du seuil de QI 110, ce qui en termes humains correspondrait à une intelligence supérieure à la moyenne.


