Zum Hauptinhalt springenZum Hauptinhalt springen
Künstliche Intelligenz in IQ-Tests: Wer würde bei Mensa bestehen und was bedeutet das?
Umělá inteligenceApril 8, 2025|4 min

Künstliche Intelligenz in IQ-Tests: Wer würde bei Mensa bestehen und was bedeutet das?

In den letzten Jahren hat die künstliche Intelligenz die Debatte darüber erweitert, inwieweit Sprachmodelle tatsächlich "denken" können und wo die fortgeschrittene Vorhersage von Wortmustern endet...

T
Tým Apertia
Apertia.ai
Teilen:

In den letzten Jahren hat die künstliche Intelligenz die Debatte darüber erweitert, inwieweit Sprachmodelle tatsächlich "denken" können und wo die fortgeschrittene Vorhersage von Wortmustern endet.

Während sich die KI-Bewertung auf Leistung bei Übersetzung, Textverständnis oder Codegenerierung konzentriert, richtet sich eine neue Testrichtung auf die traditionellen analytischen und kognitiven Fähigkeiten der Modelle – also auf das, was wir gemeinhin als Intelligenz bezeichnen.

Das Projekt TrackingAI.org bringt eine völlig neue Perspektive in diese Debatte. Man entschied sich, Sprachmodelle mit Aufgaben zu testen, die üblicherweise in menschlichen IQ-Tests verwendet werden, wie Ravens Progressive Matrizen oder Mensa Norway.

KI-Modelle mit IQ-Tests prüfen

IQ-Tests – aufgebaut auf der Fähigkeit, Muster zu erkennen, deduktiv zu denken und Strukturen zu verstehen – waren bisher die Domäne der menschlichen Intelligenz. Wie die Ergebnisse der TrackingAI-Plattform jedoch zeigen, ist es möglich, diese Tests auch auf künstliche Intelligenz anzuwenden, mit interessanten Implikationen.

TrackingAI verwendet zwei Hauptarten von Tests:

  1. Offline-IQ-Tests – unabhängig erstellte Aufgaben, die nicht in den Trainingsdaten der Modelle vorkommen.

  2. Standardisierter Mensa-Norway-Test, der üblicherweise zur Bewertung des menschlichen IQ verwendet wird.

Die Ergebnisse zeigen, dass einige Modelle (z. B. Gemini 2.5 Pro, Claude 3 oder GPT-4.5) Ergebnisse über der IQ-110-Schwelle erzielen, was in menschlichen Maßstäben überdurchschnittlicher Intelligenz entsprechen würde.

Maßgeschneiderte KI-Lösung gewünscht?

Wir helfen Unternehmen, Prozesse mit KI zu automatisieren. Kontaktieren Sie uns und erfahren Sie, wie wir Ihnen helfen können.

  • Antwort innerhalb von 24 Stunden
  • Unverbindliche Beratung
  • Maßgeschneiderte Lösungen für Ihr Unternehmen
Weitere Kontakte

Im Gegensatz dazu erreichen andere, darunter frühere Versionen von Llama oder einige visuelle Modelle, Werte im Bereich von 60–80 Punkten, was unter dem Durchschnitt liegt.

Welche KI-Modelle erzielen den höchsten IQ?

Die folgende Tabelle fasst die aktuellen Ergebnisse ausgewählter getesteter Modelle im April 2025 zusammen. Der Durchschnittswert wird als arithmetisches Mittel der Ergebnisse aus beiden Testsätzen berechnet:

Modell Offline-Test Mensa Norway Durchschnitts-IQ
Gemini 128 116 122
OpenAI o1 Pro 120 110 115
Claude 120 107 113,5
OpenAI o3 mini 119 106 112,5
GPT-4.5 Preview 106 101 103,5
Llama 4 Maverick 106 97 101,5

Interessanterweise sind Modelle mit hoher Leistung im Sprachverständnis nicht immer die besten bei logischen Tests. Multimodale Architekturen, die Text- und visuelle Eingaben kombinieren, erzielen bisher keine stabile Leistung über alle Aufgabentypen hinweg.

https://apertia.ai/manus-ai-inovace-v-oblasti-automatizace/
Bereit loszulegen?

Interessiert an diesem Artikel?

Lassen Sie uns gemeinsam erkunden, wie KI Ihr Unternehmen transformieren kann.

Kontaktieren Sie uns