Zum Hauptinhalt springenZum Hauptinhalt springen
Neue KI-Modelle von OpenAI: Leistungsstärker, aber weniger genau?
Umělá inteligenceMay 5, 2025|4 min

Neue KI-Modelle von OpenAI: Leistungsstärker, aber weniger genau?

Im Jahr 2025 stellte OpenAI neue Sprachmodelle mit den Bezeichnungen o3 und o4-mini vor, die laut offizieller Dokumentation überdurchschnittliche Ergebnisse erzielen...

T
Tým Apertia
Apertia.ai
Teilen:
In 2025 stellte OpenAI neue Sprachmodelle mit den Bezeichnungen o3 und o4-mini vor, die laut offizieller Dokumentation überdurchschnittliche Ergebnisse in Leistungstests erzielen, die auf logisches Denken, Programmierung und wissenschaftliche Aufgaben ausgerichtet sind. Im Gegensatz dazu ergaben interne Tests jedoch einen besorgniserregenden Trend: Diese neueren Modelle erzeugen wesentlich mehr falsche oder erfundene Informationen als ihre Vorgänger (OpenAI, 2025). Die erhöhte Rate sogenannter Halluzinationen ist ein Problem, das erhebliche Auswirkungen auf die Glaubwürdigkeit und den Einsatz von KI-Systemen in Bereichen haben kann, in denen Genauigkeit entscheidend ist, wie im Gesundheitswesen, im Recht oder in der Sicherheitsanalytik.

Halluzinationsraten in Zahlen

Interne Messungen von OpenAI auf dem PersonQA-Benchmark zeigten folgenden Vergleich zwischen verschiedenen Modellgenerationen:

Modell Halluzinationsrate (%)
o1 16
o3-mini 14,8
o3 33
o4-mini 48

Interessanterweise hatte das Modell o3-mini eine niedrigere Halluzinationsrate als o1, was darauf hindeuten könnte, dass eine geringere Parameterkapazität manchmal paradoxerweise zu größerer Vorsicht bei der Generierung von Aussagen beiträgt.

Maßgeschneiderte KI-Lösung gewünscht?

Wir helfen Unternehmen, Prozesse mit KI zu automatisieren. Kontaktieren Sie uns und erfahren Sie, wie wir Ihnen helfen können.

  • Antwort innerhalb von 24 Stunden
  • Unverbindliche Beratung
  • Maßgeschneiderte Lösungen für Ihr Unternehmen
Weitere Kontakte

Ein weiterer kontrastierender Fakt: Das Modell o4-mini erreichte zudem eine Erfolgsquote von 68,1 % im SWE-bench Verified Benchmark, was deutlich mehr ist als beispielsweise Claude 3.7 Sonnet (62,3 %) – dennoch ist o4-mini am anfälligsten für Halluzinationen.

Warum „erfinden“ Modelle?

1. Statistische Natur generativer KI

Modelle wie o3 sind keine Datenbanken von Fakten, sondern Systeme zur Vorhersage des nächsten Wortes. Wenn das Modell einen bestimmten Fakt während des Trainings nie „gesehen“ hat, erstellt es seine eigene Schätzung.
Dieses Prinzip ermöglicht beispielsweise kreatives Schreiben, ist aber auch die Ursache von Halluzinationen, insbesondere bei spezialisierten Anfragen.

2. Fehlen von Metakognition

Laut Forschungsergebnissen in Nature können Modelle ihre eigene Unsicherheit nicht reflektieren:
„Dem Modell fehlt ein Mechanismus, der es ihm ermöglichen würde, seine eigene Aussage als Spekulation zu kennzeichnen“ (Li et al., 2024, Nature AI).

3. Übermäßige Leistungsoptimierung

Benchmarks wie GPQA oder MATH sind derzeit das dominierende Trainingsziel – und sie spiegeln nicht immer die Realität wider. Modelle werden daher eher auf Leistung als auf Zuverlässigkeit optimiert.

Interessanter Fakt: Halluzinationen bei „Zitaten“ und Referenzen

Eine der auffälligsten Formen von Halluzinationen ist das Erfinden von Links zu Dokumentationen oder wissenschaftlichen Artikeln. Modelle generieren häufig glaubwürdig aussehende DOIs, die tatsächlich nicht existieren.
Dieses Phänomen ist so häufig, dass es als Citation Hallucination Bias beschrieben wurde (Choubey et al., 2023, arXiv).

Beispielsweise generierte das Modell o3 beim Testen durch das Startup Workera einen Link zu einem GitHub-Repository, das nicht existierte – und verwies auf eine Methode, die nie implementiert wurde.

Bereit loszulegen?

Interessiert an diesem Artikel?

Lassen Sie uns gemeinsam erkunden, wie KI Ihr Unternehmen transformieren kann.

Kontaktieren Sie uns