Umělá inteligenceApril 8, 2025|4 min

Künstliche Intelligenz in IQ-Tests: Wer würde bei Mensa bestehen und was bedeutet das?

In den letzten Jahren hat die künstliche Intelligenz die Debatte darüber erweitert, inwieweit Sprachmodelle tatsächlich "denken" können und wo die fortgeschrittene Vorhersage von Wortmustern endet...

Tým Apertia

Apertia.ai

In den letzten Jahren hat die künstliche Intelligenz die Debatte darüber erweitert, inwieweit Sprachmodelle tatsächlich "denken" können und wo die fortgeschrittene Vorhersage von Wortmustern endet.

Während sich die KI-Bewertung auf Leistung bei Übersetzung, Textverständnis oder Codegenerierung konzentriert, richtet sich eine neue Testrichtung auf die traditionellen analytischen und kognitiven Fähigkeiten der Modelle – also auf das, was wir gemeinhin als Intelligenz bezeichnen.

Das Projekt TrackingAI.org bringt eine völlig neue Perspektive in diese Debatte. Man entschied sich, Sprachmodelle mit Aufgaben zu testen, die üblicherweise in menschlichen IQ-Tests verwendet werden, wie Ravens Progressive Matrizen oder Mensa Norway.

KI-Modelle mit IQ-Tests prüfen

IQ-Tests – aufgebaut auf der Fähigkeit, Muster zu erkennen, deduktiv zu denken und Strukturen zu verstehen – waren bisher die Domäne der menschlichen Intelligenz. Wie die Ergebnisse der TrackingAI-Plattform jedoch zeigen, ist es möglich, diese Tests auch auf künstliche Intelligenz anzuwenden, mit interessanten Implikationen.

TrackingAI verwendet zwei Hauptarten von Tests:

Offline-IQ-Tests – unabhängig erstellte Aufgaben, die nicht in den Trainingsdaten der Modelle vorkommen.
Standardisierter Mensa-Norway-Test, der üblicherweise zur Bewertung des menschlichen IQ verwendet wird.

Die Ergebnisse zeigen, dass einige Modelle (z. B. Gemini 2.5 Pro, Claude 3 oder GPT-4.5) Ergebnisse über der IQ-110-Schwelle erzielen, was in menschlichen Maßstäben überdurchschnittlicher Intelligenz entsprechen würde.

Maßgeschneiderte KI-Lösung gewünscht?

Wir helfen Unternehmen, Prozesse mit KI zu automatisieren. Kontaktieren Sie uns und erfahren Sie, wie wir Ihnen helfen können.

Antwort innerhalb von 24 Stunden
Unverbindliche Beratung
Maßgeschneiderte Lösungen für Ihr Unternehmen

Im Gegensatz dazu erreichen andere, darunter frühere Versionen von Llama oder einige visuelle Modelle, Werte im Bereich von 60–80 Punkten, was unter dem Durchschnitt liegt.

Welche KI-Modelle erzielen den höchsten IQ?

Die folgende Tabelle fasst die aktuellen Ergebnisse ausgewählter getesteter Modelle im April 2025 zusammen. Der Durchschnittswert wird als arithmetisches Mittel der Ergebnisse aus beiden Testsätzen berechnet:

Modell	Offline-Test	Mensa Norway	Durchschnitts-IQ
Gemini	128	116	122
OpenAI o1 Pro	120	110	115
Claude	120	107	113,5
OpenAI o3 mini	119	106	112,5
GPT-4.5 Preview	106	101	103,5
Llama 4 Maverick	106	97	101,5

Interessanterweise sind Modelle mit hoher Leistung im Sprachverständnis nicht immer die besten bei logischen Tests. Multimodale Architekturen, die Text- und visuelle Eingaben kombinieren, erzielen bisher keine stabile Leistung über alle Aufgabentypen hinweg.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/