AI modely & technologie5. mája 2025|4 min

Nové AI modely OpenAI: výkonnejšie, ale menej presné?

OpenAI predstavila modely o3 a o4-mini s vysokým výkonom v benchmarkoch. Interné testy však ukazujú vyššiu mieru halucinácií.

Tým Apertia

Apertia.ai

Zdieľať:

Spoločnosť OpenAI v roku 2025 predstavila nové jazykové modely označované ako o3 a o4-mini, ktoré podľa oficiálnej dokumentácie dosahujú nadpriemerné výsledky vo výkonnostných testoch zameraných na logické uvažovanie, programovanie a vedecké úlohy. V kontraste s tým však interné testovanie odhalilo znepokojivý trend: tieto novšie modely generujú podstatne viac nepravdivých alebo vymyslených informácií než ich predchodcovia (OpenAI, 2025). Zvýšená miera tzv. halucinácií je problém, ktorý môže mať zásadné dôsledky pre dôveryhodnosť a nasadenie AI systémov v oblastiach, kde je kľúčová presnosť, napríklad v zdravotníctve, práve alebo bezpečnostnej analytike.

Miera halucinácií v číslach

Interné meranie OpenAI na benchmarku PersonQA ukázalo nasledujúce porovnanie medzi jednotlivými generáciami modelov:

Model	Miera halucinácií (%)
o1	16
o3-mini	14,8
o3	33
o4-mini	48

Zaujímavé je, že model o3-mini mal nižšiu mieru halucinácií než o1, čo môže naznačovať, že nižšia parametrická kapacita niekedy paradoxne prispieva k vyššej opatrnosti pri generovaní tvrdení.

Chcete AI riešenie na mieru?

Pomáhame firmám automatizovať procesy pomocou AI. Napíšte nám a zistite, ako môžeme pomôcť práve vám.

Odpoveď do 24 hodín
Nezáväzná konzultácia
Riešenia na mieru vašej firme

Ďalší kontrastný fakt: model o4-mini zároveň dosiahol 68,1 % úspešnosť v benchmarku SWE-bench Verified, čo je výrazne viac než napríklad Claude 3.7 Sonnet (62,3 %) - napriek tomu je práve o4-mini najnáchylnejší na halucinácie.

Prečo si modely „vymýšľajú"?

1. Štatistická povaha generatívnej AI

Modely ako o3 nie sú databázou faktov, ale systémom na predikciu ďalšieho slova. Ak model daný fakt počas tréningu nikdy „nevidel“, vytvorí si vlastný odhad.
Tento princíp umožňuje napríklad kreatívne písanie, ale je aj príčinou halucinácií, najmä pri odborných otázkach.

2. Absencia metakognície

Podľa výskumu v časopise Nature modely nevedia reflektovať vlastnú neistotu:
„Model nedisponuje mechanizmom, ktorý by mu umožnil označiť vlastný výrok za špekuláciu“ (Li et al., 2024, Nature AI).

3. Prehnaná optimalizácia na výkon

Benchmarky ako GPQA alebo MATH sú dnes dominantným tréningovým cieľom - a nie vždy odrážajú realitu. Modely sú preto ladené skôr na výkon než na spoľahlivosť.

Zaujímavosť: halucinácie pri „citáciách“ a referenciách

Jednou z najnápadnejších foriem halucinácií je vymýšľanie odkazov na dokumentáciu alebo vedecké články. Modely často generujú dôveryhodne pôsobiace DOI, ktoré však neexistujú.
Tento jav je taký častý, že bol opísaný ako Citation Hallucination Bias (Choubey et al., 2023, arXiv).

Napríklad model o3 pri testovaní startupom Workera generoval odkaz na GitHub repozitár, ktorý neexistoval, a odkazoval na metódu, ktorá nikdy nebola implementovaná.