Umělá inteligenceMay 5, 2025|4 min

Nuevos modelos de IA de OpenAI: ¿más potentes, pero menos precisos?

En 2025, OpenAI presentó nuevos modelos de lenguaje llamados o3 y o4-mini, que según la documentación oficial logran resultados superiores en pruebas de razonamiento, programación y tareas científicas...

Tým Apertia

Apertia.ai

En 2025, OpenAI introduced new language models designated as o3 y o4-mini, que según la documentación oficial logran resultados por encima de la media en pruebas de rendimiento centradas en razonamiento lógico, programación y tareas científicas. Sin embargo, las pruebas internas revelaron una tendencia preocupante: estos modelos más nuevos generan sustancialmente más información falsa o fabricada que sus predecesores (OpenAI, 2025). La mayor tasa de las llamadas alucinaciones es un problema que puede tener consecuencias significativas para la credibilidad y el despliegue de sistemas de IA en áreas donde la precisión es crucial, como la salud, el derecho o la analítica de seguridad.

Tasas de alucinaciones en cifras

Las mediciones internas de OpenAI en el benchmark PersonQA mostraron la siguiente comparación entre diferentes generaciones de modelos:

Modelo	Tasa de alucinación (%)
o1	16
o3-mini	14.8
o3	33
o4-mini	48

Curiosamente, el modelo o3-mini tuvo una tasa de alucinación más baja que o1, lo que puede sugerir que una menor capacidad de parámetros, paradójicamente, contribuye a una mayor cautela al generar afirmaciones.

¿Quiere una solución de IA personalizada?

Ayudamos a las empresas a automatizar procesos con IA. Contáctenos para saber cómo podemos ayudarle.

Respuesta en 24 horas
Consulta sin compromiso
Soluciones a medida para su empresa

Otro dato contrastante: el modelo o4-mini también logró un 68.1% de éxito en el benchmark SWE-bench Verified, significativamente más que, por ejemplo, Claude 3.7 Sonnet (62.3%), y aun así o4-mini es el más propenso a alucinar.

¿Por qué los modelos "se inventan cosas"?

1. Naturaleza estadística de la IA generativa

Modelos como o3 no son bases de datos de hechos, sino sistemas para predecir la siguiente palabra. Si el modelo nunca "vio" un hecho durante el entrenamiento, crea su propia estimación.
Este principio permite, por ejemplo, la escritura creativa, pero también es la causa de las alucinaciones, especialmente en consultas especializadas.

2. Ausencia de metacognición

Según investigaciones en Nature, los modelos no pueden reflexionar sobre su propia incertidumbre:
"El modelo carece de un mecanismo que le permita etiquetar su propia afirmación como especulación" (Li et al., 2024, Nature AI).

3. Optimización excesiva del rendimiento

Benchmarks como GPQA o MATH son actualmente el objetivo dominante del entrenamiento y no siempre reflejan la realidad. Por ello, los modelos se ajustan más al rendimiento que a la fiabilidad.

Dato interesante: alucinaciones en "citas" y referencias

Una de las formas más notables de alucinación es fabricar enlaces a documentación o artículos científicos. Los modelos suelen generar DOIs creíbles que en realidad no existen.
Este fenómeno es tan común que se ha descrito como Citation Hallucination Bias (Choubey et al., 2023, arXiv).

Por ejemplo, cuando la startup Workera lo probó, el modelo o3 generó un enlace a un repositorio de GitHub que no existía y además citó un método que nunca fue implementado.