Umělá inteligenceMay 5, 2025|4 min

Nouveaux modèles IA d'OpenAI : plus puissants, mais moins précis ?

En 2025, OpenAI a présenté de nouveaux modèles de langage désignés sous les noms o3 et o4-mini, qui selon la documentation officielle obtiennent des résultats supérieurs à la moyenne...

Tým Apertia

Apertia.ai

En 2025, OpenAI a présenté de nouveaux modèles de langage désignés sous les noms o3 et o4-mini, qui selon la documentation officielle obtiennent des résultats supérieurs à la moyenne dans les tests de performance axés sur le raisonnement logique, la programmation et les tâches scientifiques. Cependant, en contraste, des tests internes ont révélé une tendance préoccupante : ces modèles plus récents génèrent considérablement plus d'informations fausses ou fabriquées que leurs prédécesseurs (OpenAI, 2025). Le taux accru de ce que l'on appelle les hallucinations est un problème qui peut avoir des conséquences significatives pour la crédibilité et le déploiement des systèmes d'IA dans des domaines où la précision est cruciale, comme la santé, le droit ou l'analytique de sécurité.

Taux d'hallucinations en chiffres

Les mesures internes d'OpenAI sur le benchmark PersonQA ont montré la comparaison suivante entre les différentes générations de modèles :

Modèle	Taux d'hallucination (%)
o1	16
o3-mini	14,8
o3	33
o4-mini	48

Fait intéressant, le modèle o3-mini avait un taux d'hallucination inférieur à celui d'o1, ce qui pourrait suggérer qu'une capacité paramétrique plus faible contribue parfois paradoxalement à une plus grande prudence lors de la génération d'affirmations.

Vous souhaitez une solution IA sur mesure ?

Nous aidons les entreprises à automatiser leurs processus avec l'IA. Contactez-nous pour découvrir comment nous pouvons vous aider.

Réponse sous 24 heures
Consultation sans engagement
Solutions adaptées à votre entreprise

Un autre fait contrastant : le modèle o4-mini a également atteint un taux de réussite de 68,1 % sur le benchmark SWE-bench Verified, ce qui est nettement supérieur à Claude 3.7 Sonnet (62,3 %) par exemple – pourtant o4-mini est le plus sujet aux hallucinations.

Pourquoi les modèles « inventent-ils » ?

1. Nature statistique de l'IA générative

Des modèles comme o3 ne sont pas des bases de données de faits mais des systèmes de prédiction du mot suivant. Si le modèle n'a jamais « vu » un fait donné pendant l'entraînement, il crée sa propre estimation.
Ce principe permet par exemple l'écriture créative, mais il est aussi la cause des hallucinations, notamment dans les requêtes spécialisées.

2. Absence de métacognition

Selon des recherches publiées dans Nature, les modèles ne peuvent pas refléter leur propre incertitude :
« Le modèle ne dispose pas d'un mécanisme qui lui permettrait de qualifier sa propre déclaration de spéculation » (Li et al., 2024, Nature AI).

3. Optimisation excessive des performances

Les benchmarks comme GPQA ou MATH sont actuellement l'objectif d'entraînement dominant – et ils ne reflètent pas toujours la réalité. Les modèles sont donc ajustés davantage pour la performance que pour la fiabilité.

Fait intéressant : Hallucinations dans les « citations » et références

L'une des formes les plus visibles d'hallucination est la fabrication de liens vers de la documentation ou des articles scientifiques. Les modèles génèrent souvent des DOI d'apparence crédible qui n'existent pas en réalité.
Ce phénomène est si courant qu'il a été décrit comme Citation Hallucination Bias (Choubey et al., 2023, arXiv).

Par exemple, lors de tests effectués par la startup Workera, le modèle o3 a généré un lien vers un dépôt GitHub qui n'existait pas – et a référencé une méthode qui n'a jamais été implémentée.