Passer au contenu principalPasser au contenu principal
L'intelligence artificielle dans les tests de QI : qui passerait Mensa et qu'est-ce que cela signifie ?
Umělá inteligenceApril 8, 2025|4 min

L'intelligence artificielle dans les tests de QI : qui passerait Mensa et qu'est-ce que cela signifie ?

Ces dernières années, l'intelligence artificielle a élargi le débat sur la capacité réelle des modèles de langage à « penser » et sur les limites de la prédiction avancée de schémas linguistiques...

T
Tým Apertia
Apertia.ai
Partager:

Ces dernières années, l'intelligence artificielle a élargi le débat sur la capacité réelle des modèles de langage à « penser » et sur les limites de la prédiction avancée de schémas linguistiques.

Alors que l'évaluation de l'IA se concentre sur les performances en traduction, compréhension de texte ou génération de code, une nouvelle direction de test se focalise sur les capacités analytiques et cognitives traditionnelles des modèles – c'est-à-dire ce que nous appelons communément l'intelligence.

Le projet TrackingAI.org apporte une perspective entièrement nouvelle à ce débat. Ils ont décidé de tester les modèles de langage sur des tâches couramment utilisées dans les tests de QI humains, telles que les Matrices Progressives de Raven ou le test Mensa Norway.

Tester les modèles d'IA avec des tests de QI

Les tests de QI – fondés sur la capacité à reconnaître des schémas, à raisonner de manière déductive et à comprendre des structures – ont jusqu'ici été le domaine de l'intelligence humaine. Cependant, comme le montrent les résultats de la plateforme TrackingAI, il est possible d'appliquer ces tests également à l'intelligence artificielle, avec des implications intéressantes.

TrackingAI utilise deux principaux types de tests :

  1. Tests de QI hors ligne – des tâches créées indépendamment, sans apparaître dans les données d'entraînement des modèles.

  2. Test standardisé Mensa Norway, couramment utilisé pour évaluer le QI humain.

Les résultats montrent que certains modèles (par ex. Gemini 2.5 Pro, Claude 3 ou GPT-4.5) obtiennent des résultats au-dessus du seuil de QI 110, ce qui en termes humains correspondrait à une intelligence supérieure à la moyenne.

Vous souhaitez une solution IA sur mesure ?

Nous aidons les entreprises à automatiser leurs processus avec l'IA. Contactez-nous pour découvrir comment nous pouvons vous aider.

  • Réponse sous 24 heures
  • Consultation sans engagement
  • Solutions adaptées à votre entreprise
Plus de contacts

En revanche, d'autres, notamment les versions antérieures de Llama ou certains modèles visuels, se situent dans la fourchette de 60 à 80 points, ce qui est en dessous de la moyenne.

Quels modèles d'IA obtiennent le QI le plus élevé ?

Le tableau ci-dessous résume les résultats actuels de modèles sélectionnés testés en avril 2025. Le score moyen est calculé comme la moyenne arithmétique des résultats des deux ensembles de tests :

Modèle Test hors ligne Mensa Norway QI moyen
Gemini 128 116 122
OpenAI o1 Pro 120 110 115
Claude 120 107 113,5
OpenAI o3 mini 119 106 112,5
GPT-4.5 Preview 106 101 103,5
Llama 4 Maverick 106 97 101,5

Il est intéressant de noter que les modèles ayant de hautes performances en compréhension linguistique ne sont pas toujours les meilleurs aux tests logiques. Les architectures multimodales qui combinent des entrées textuelles et visuelles n'atteignent pas encore des performances stables sur l'ensemble des tâches.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/
Prêt à commencer ?

Intéressé par cet article?

Explorons ensemble comment l'IA peut transformer votre entreprise.

Contactez-nous