In den letzten Jahren hat die künstliche Intelligenz die Debatte darüber erweitert, inwieweit Sprachmodelle tatsächlich "denken" können und wo die fortgeschrittene Vorhersage von Wortmustern endet.
Während sich die KI-Bewertung auf Leistung bei Übersetzung, Textverständnis oder Codegenerierung konzentriert, richtet sich eine neue Testrichtung auf die traditionellen analytischen und kognitiven Fähigkeiten der Modelle – also auf das, was wir gemeinhin als Intelligenz bezeichnen.
Das Projekt TrackingAI.org bringt eine völlig neue Perspektive in diese Debatte. Man entschied sich, Sprachmodelle mit Aufgaben zu testen, die üblicherweise in menschlichen IQ-Tests verwendet werden, wie Ravens Progressive Matrizen oder Mensa Norway.
KI-Modelle mit IQ-Tests prüfen
IQ-Tests – aufgebaut auf der Fähigkeit, Muster zu erkennen, deduktiv zu denken und Strukturen zu verstehen – waren bisher die Domäne der menschlichen Intelligenz. Wie die Ergebnisse der TrackingAI-Plattform jedoch zeigen, ist es möglich, diese Tests auch auf künstliche Intelligenz anzuwenden, mit interessanten Implikationen.
TrackingAI verwendet zwei Hauptarten von Tests:
-
Offline-IQ-Tests – unabhängig erstellte Aufgaben, die nicht in den Trainingsdaten der Modelle vorkommen.
-
Standardisierter Mensa-Norway-Test, der üblicherweise zur Bewertung des menschlichen IQ verwendet wird.
Die Ergebnisse zeigen, dass einige Modelle (z. B. Gemini 2.5 Pro, Claude 3 oder GPT-4.5) Ergebnisse über der IQ-110-Schwelle erzielen, was in menschlichen Maßstäben überdurchschnittlicher Intelligenz entsprechen würde.


