Umělá inteligenceApril 8, 2025|4 min

L'intelligence artificielle dans les tests de QI : qui passerait Mensa et qu'est-ce que cela signifie ?

Ces dernières années, l'intelligence artificielle a élargi le débat sur la capacité réelle des modèles de langage à « penser » et sur les limites de la prédiction avancée de schémas linguistiques...

Tým Apertia

Apertia.ai

Ces dernières années, l'intelligence artificielle a élargi le débat sur la capacité réelle des modèles de langage à « penser » et sur les limites de la prédiction avancée de schémas linguistiques.

Alors que l'évaluation de l'IA se concentre sur les performances en traduction, compréhension de texte ou génération de code, une nouvelle direction de test se focalise sur les capacités analytiques et cognitives traditionnelles des modèles – c'est-à-dire ce que nous appelons communément l'intelligence.

Le projet TrackingAI.org apporte une perspective entièrement nouvelle à ce débat. Ils ont décidé de tester les modèles de langage sur des tâches couramment utilisées dans les tests de QI humains, telles que les Matrices Progressives de Raven ou le test Mensa Norway.

Tester les modèles d'IA avec des tests de QI

Les tests de QI – fondés sur la capacité à reconnaître des schémas, à raisonner de manière déductive et à comprendre des structures – ont jusqu'ici été le domaine de l'intelligence humaine. Cependant, comme le montrent les résultats de la plateforme TrackingAI, il est possible d'appliquer ces tests également à l'intelligence artificielle, avec des implications intéressantes.

TrackingAI utilise deux principaux types de tests :

Tests de QI hors ligne – des tâches créées indépendamment, sans apparaître dans les données d'entraînement des modèles.
Test standardisé Mensa Norway, couramment utilisé pour évaluer le QI humain.

Les résultats montrent que certains modèles (par ex. Gemini 2.5 Pro, Claude 3 ou GPT-4.5) obtiennent des résultats au-dessus du seuil de QI 110, ce qui en termes humains correspondrait à une intelligence supérieure à la moyenne.

Vous souhaitez une solution IA sur mesure ?

Nous aidons les entreprises à automatiser leurs processus avec l'IA. Contactez-nous pour découvrir comment nous pouvons vous aider.

Réponse sous 24 heures
Consultation sans engagement
Solutions adaptées à votre entreprise

En revanche, d'autres, notamment les versions antérieures de Llama ou certains modèles visuels, se situent dans la fourchette de 60 à 80 points, ce qui est en dessous de la moyenne.

Quels modèles d'IA obtiennent le QI le plus élevé ?

Le tableau ci-dessous résume les résultats actuels de modèles sélectionnés testés en avril 2025. Le score moyen est calculé comme la moyenne arithmétique des résultats des deux ensembles de tests :

Modèle	Test hors ligne	Mensa Norway	QI moyen
Gemini	128	116	122
OpenAI o1 Pro	120	110	115
Claude	120	107	113,5
OpenAI o3 mini	119	106	112,5
GPT-4.5 Preview	106	101	103,5
Llama 4 Maverick	106	97	101,5

Il est intéressant de noter que les modèles ayant de hautes performances en compréhension linguistique ne sont pas toujours les meilleurs aux tests logiques. Les architectures multimodales qui combinent des entrées textuelles et visuelles n'atteignent pas encore des performances stables sur l'ensemble des tâches.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/