En 2025, OpenAI introduced new language models designated as
o3 y
o4-mini, que según la documentación oficial logran resultados por encima de la media en pruebas de rendimiento centradas en razonamiento lógico, programación y tareas científicas.
Sin embargo, las pruebas internas revelaron una tendencia preocupante: estos modelos más nuevos generan sustancialmente más información falsa o fabricada que sus predecesores (
OpenAI, 2025).
La mayor tasa de las llamadas alucinaciones es un problema que puede tener consecuencias significativas para la credibilidad y el despliegue de sistemas de IA en áreas donde la precisión es crucial, como la salud, el derecho o la analítica de seguridad.
Tasas de alucinaciones en cifras
Las mediciones internas de OpenAI en el benchmark PersonQA mostraron la siguiente comparación entre diferentes generaciones de modelos:
| Modelo |
Tasa de alucinación (%) |
| o1 |
16 |
| o3-mini |
14.8 |
| o3 |
33 |
| o4-mini |
48 |
Curiosamente, el modelo o3-mini tuvo una tasa de alucinación más baja que o1, lo que puede sugerir que una menor capacidad de parámetros, paradójicamente, contribuye a una mayor cautela al generar afirmaciones.
Otro dato contrastante: el modelo o4-mini también logró un 68.1% de éxito en el benchmark SWE-bench Verified, significativamente más que, por ejemplo, Claude 3.7 Sonnet (62.3%), y aun así o4-mini es el más propenso a alucinar.
¿Por qué los modelos "se inventan cosas"?
1. Naturaleza estadística de la IA generativa
Modelos como o3 no son bases de datos de hechos, sino sistemas para predecir la siguiente palabra. Si el modelo nunca "vio" un hecho durante el entrenamiento, crea su propia estimación.
Este principio permite, por ejemplo, la escritura creativa, pero también es la causa de las alucinaciones, especialmente en consultas especializadas.
2. Ausencia de metacognición
Según investigaciones en Nature, los modelos no pueden reflexionar sobre su propia incertidumbre:
"El modelo carece de un mecanismo que le permita etiquetar su propia afirmación como especulación" (Li et al., 2024, Nature AI).
3. Optimización excesiva del rendimiento
Benchmarks como GPQA o MATH son actualmente el objetivo dominante del entrenamiento y no siempre reflejan la realidad. Por ello, los modelos se ajustan más al rendimiento que a la fiabilidad.
Dato interesante: alucinaciones en "citas" y referencias
Una de las formas más notables de alucinación es fabricar enlaces a documentación o artículos científicos. Los modelos suelen generar DOIs creíbles que en realidad no existen.
Este fenómeno es tan común que se ha descrito como Citation Hallucination Bias (Choubey et al., 2023, arXiv).
Por ejemplo, cuando la startup Workera lo probó, el modelo o3 generó un enlace a un repositorio de GitHub que no existía y además citó un método que nunca fue implementado.