In 2025 stellte OpenAI neue Sprachmodelle mit den Bezeichnungen
o3 und
o4-mini vor, die laut offizieller Dokumentation überdurchschnittliche Ergebnisse in Leistungstests erzielen, die auf logisches Denken, Programmierung und wissenschaftliche Aufgaben ausgerichtet sind.
Im Gegensatz dazu ergaben interne Tests jedoch einen besorgniserregenden Trend: Diese neueren Modelle erzeugen wesentlich mehr falsche oder erfundene Informationen als ihre Vorgänger (
OpenAI, 2025).
Die erhöhte Rate sogenannter Halluzinationen ist ein Problem, das erhebliche Auswirkungen auf die Glaubwürdigkeit und den Einsatz von KI-Systemen in Bereichen haben kann, in denen Genauigkeit entscheidend ist, wie im Gesundheitswesen, im Recht oder in der Sicherheitsanalytik.
Halluzinationsraten in Zahlen
Interne Messungen von OpenAI auf dem PersonQA-Benchmark zeigten folgenden Vergleich zwischen verschiedenen Modellgenerationen:
| Modell |
Halluzinationsrate (%) |
| o1 |
16 |
| o3-mini |
14,8 |
| o3 |
33 |
| o4-mini |
48 |
Interessanterweise hatte das Modell o3-mini eine niedrigere Halluzinationsrate als o1, was darauf hindeuten könnte, dass eine geringere Parameterkapazität manchmal paradoxerweise zu größerer Vorsicht bei der Generierung von Aussagen beiträgt.
Ein weiterer kontrastierender Fakt: Das Modell o4-mini erreichte zudem eine Erfolgsquote von 68,1 % im SWE-bench Verified Benchmark, was deutlich mehr ist als beispielsweise Claude 3.7 Sonnet (62,3 %) – dennoch ist o4-mini am anfälligsten für Halluzinationen.
Warum „erfinden“ Modelle?
1. Statistische Natur generativer KI
Modelle wie o3 sind keine Datenbanken von Fakten, sondern Systeme zur Vorhersage des nächsten Wortes. Wenn das Modell einen bestimmten Fakt während des Trainings nie „gesehen“ hat, erstellt es seine eigene Schätzung.
Dieses Prinzip ermöglicht beispielsweise kreatives Schreiben, ist aber auch die Ursache von Halluzinationen, insbesondere bei spezialisierten Anfragen.
2. Fehlen von Metakognition
Laut Forschungsergebnissen in Nature können Modelle ihre eigene Unsicherheit nicht reflektieren:
„Dem Modell fehlt ein Mechanismus, der es ihm ermöglichen würde, seine eigene Aussage als Spekulation zu kennzeichnen“ (Li et al., 2024, Nature AI).
3. Übermäßige Leistungsoptimierung
Benchmarks wie GPQA oder MATH sind derzeit das dominierende Trainingsziel – und sie spiegeln nicht immer die Realität wider. Modelle werden daher eher auf Leistung als auf Zuverlässigkeit optimiert.
Interessanter Fakt: Halluzinationen bei „Zitaten“ und Referenzen
Eine der auffälligsten Formen von Halluzinationen ist das Erfinden von Links zu Dokumentationen oder wissenschaftlichen Artikeln. Modelle generieren häufig glaubwürdig aussehende DOIs, die tatsächlich nicht existieren.
Dieses Phänomen ist so häufig, dass es als Citation Hallucination Bias beschrieben wurde (Choubey et al., 2023, arXiv).
Beispielsweise generierte das Modell o3 beim Testen durch das Startup Workera einen Link zu einem GitHub-Repository, das nicht existierte – und verwies auf eine Methode, die nie implementiert wurde.