Model, který jako první překonal hranici 15 % v extrémně náročném testu ARC AGI 2.0. A model, který má být chytřejší než celá generace postgraduálních studentů. Řeč je o Grok 4, nejnovější umělé inteligenci od společnosti xAI.
Zatímco mnohé jazykové modely lákají na objem parametrů a multimodalitu, Grok 4 jde jinou cestou. Spojuje výkon s architekturou navrženou pro hluboké porozumění, deduktivní uvažování a schopnost asistovat vývojářům při každodenní práci. V tomto článku se podíváme, jak si Grok vede v praxi – a především, co nabízí programátorům, kteří hledají víc než jen automatický generátor syntaxe.
ARC AGI jako první překročená laťka
Grok 4 dosáhl 15,3 % v testu ARC AGI 2.0 – jednoho z nejnáročnějších testů obecné inteligence, zaměřeného na schopnost řešit logické, matematické a jazykové problémy podobné IQ testům. Pro srovnání: GPT-4 se pohybuje kolem 13 %, Gemini 2.5 Pro a Claude 3 Opus mírně pod touto hranicí.
Tento výsledek potvrzuje vysokou úroveň schopnosti reasoning, tedy logického uvažování – klíčové vlastnosti pro vývojářské úlohy vyžadující více než pouhé generování syntaxe. ARC benchmark – Allen Institute for AI
Model | ARC AGI 2.0 skóre | HumanEval | Codeforces Rank |
---|---|---|---|
Grok 4 | 15,3 % | 75–78 % | Master (~2100) |
GPT-4 (OpenAI) | 12–14 % | 67–72 % | Candidate Master |
Claude 3 Opus | 10–11 % | 70–75 % | ~Expert |
Gemini 2.5 Pro | 13 % | 76–80 % | Master |
Tyto výsledky ukazují, že Grok 4 není jen PR produkt, ale reálně patří mezi nejlepší modely na trhu schopné řešit úlohy s vysokou mírou komplexity a nedeterministických scénářů.
Pro vývojáře to znamená, že model lépe chápe záměr, odhaduje logické souvislosti a je schopen navrhovat řešení v kontextu, nikoli jen podle naučených vzorů.