AI modely & technologie5. května 2025|4 min

Nové AI modely OpenAI: Výkonnější, ale méně přesné?

Společnost OpenAI v roce 2025 představila nové jazykové modely označované jako o3 a o4-mini, které dle oficiální dokumentace dosahují nadprůměrných výsledků ...

Tým Apertia

Apertia.ai

Sdílet:

Společnost OpenAI v roce 2025 představila nové jazykové modely označované jako o3 a o4-mini, které dle oficiální dokumentace dosahují nadprůměrných výsledků ve výkonnostních testech zaměřených na logické uvažování, programování a vědecké úlohy. V kontrastu s tím však interní testování odhalilo znepokojivý trend: tyto novější modely generují podstatně více nepravdivých nebo smyšlených informací, než jejich předchůdci (OpenAI,2025). Zvýšená míra tzv. halucinací je problémem, který může mít zásadní důsledky pro důvěryhodnost a nasazení AI systémů v oblastech, kde je klíčová přesnost, jako je zdravotnictví, právo nebo bezpečnostní analytika.

Míra halucinací v číslech

Interní měření OpenAI na benchmarku PersonQA ukázalo následující srovnání mezi jednotlivými generacemi modelů:

Model	Míra halucinací (%)
o1	16
o3-mini	14,8
o3	33
o4-mini	48

Zajímavostí je, že model o3-mini měl nižší míru halucinací než o1, což může naznačovat, že nižší parametrická kapacita někdy paradoxně přispívá k vyšší opatrnosti při generování tvrzení.

Chcete AI řešení na míru?

Pomoháme firmám automatizovat procesy pomocí AI. Napište nám a zjistěte, jak můžeme pomoci právě vám.

Odpověď do 24 hodin
Nezávazná konzultace
Řešení na míru vaší firmě

Další kontrastní fakt: model o4-mini zároveň dosáhl 68,1 % úspěšnosti v benchmarku SWE-bench Verified, což je výrazně více než například Claude 3.7 Sonnet (62,3 %) – přesto je právě o4-mini nejvíce náchylný k halucinacím.

Proč modely „vymýšlejí"?

1. Statistická povaha generativní AI

Modely jako o3 nejsou databází faktů, ale systémem pro predikci dalšího slova. Pokud model nikdy „neviděl“ daný fakt během tréninku, vytvoří si vlastní odhad.
Tento princip umožňuje například kreativní psaní, ale je také příčinou halucinací, zejména v odborných dotazech.

2. Absence metakognice

Podle výzkumu v časopise Nature modely neumějí reflektovat vlastní nejistotu:
„Model nedisponuje mechanismem, který by mu umožnil označit vlastní výrok za spekulaci“ (Li et al., 2024, Nature AI).

3. Přehnaná optimalizace na výkon

Benchmarky jako GPQA nebo MATH jsou v současnosti dominantním tréninkovým cílem – a ne vždy reflektují realitu. Modely jsou tedy laděny spíše na výkon než na spolehlivost.

Zajímavost: Halucinace u „citací“ a referencí

Jednou z nejnápadnějších forem halucinace je vymýšlení odkazů na dokumentaci nebo vědecké články. Modely často generují důvěryhodně vypadající DOI, které ale neexistují.
Tento jev je tak častý, že byl popsán jako Citation Hallucination Bias (Choubey et al., 2023, arXiv).

Například model o3 při testování startupem Workera generoval odkaz na GitHub repozitář, který neexistoval – a odkazoval na metodu, která nikdy nebyla implementována.