Nové AI modely OpenAI: Výkonnější, ale méně přesné?

5 května, 2025

Společnost OpenAI v roce 2025 představila nové jazykové modely označované jako o3 a o4-mini, které dle oficiální dokumentace dosahují nadprůměrných výsledků ve výkonnostních testech zaměřených na logické uvažování, programování a vědecké úlohy.

V kontrastu s tím však interní testování odhalilo znepokojivý trend: tyto novější modely generují podstatně více nepravdivých nebo smyšlených informací, než jejich předchůdci (OpenAI,2025).

Zvýšená míra tzv. halucinací je problémem, který může mít zásadní důsledky pro důvěryhodnost a nasazení AI systémů v oblastech, kde je klíčová přesnost, jako je zdravotnictví, právo nebo bezpečnostní analytika.

Míra halucinací v číslech

Interní měření OpenAI na benchmarku PersonQA ukázalo následující srovnání mezi jednotlivými generacemi modelů:

ModelMíra halucinací (%)
o116
o3-mini14,8
o333
o4-mini48

Zajímavostí je, že model o3-mini měl nižší míru halucinací než o1, což může naznačovat, že nižší parametrická kapacita někdy paradoxně přispívá k vyšší opatrnosti při generování tvrzení.

Další kontrastní fakt: model o4-mini zároveň dosáhl 68,1 % úspěšnosti v benchmarku SWE-bench Verified, což je výrazně více než například Claude 3.7 Sonnet (62,3 %) – přesto je právě o4-mini nejvíce náchylný k halucinacím.

Proč modely „vymýšlejí“?

1. Statistická povaha generativní AI

Modely jako o3 nejsou databází faktů, ale systémem pro predikci dalšího slova. Pokud model nikdy „neviděl“ daný fakt během tréninku, vytvoří si vlastní odhad.
Tento princip umožňuje například kreativní psaní, ale je také příčinou halucinací, zejména v odborných dotazech.

2. Absence metakognice

Podle výzkumu v časopise Nature modely neumějí reflektovat vlastní nejistotu:
„Model nedisponuje mechanismem, který by mu umožnil označit vlastní výrok za spekulaci“ (Li et al., 2024, Nature AI).

3. Přehnaná optimalizace na výkon

Benchmarky jako GPQA nebo MATH jsou v současnosti dominantním tréninkovým cílem – a ne vždy reflektují realitu. Modely jsou tedy laděny spíše na výkon než na spolehlivost.

Zajímavost: Halucinace u „citací“ a referencí

Jednou z nejnápadnějších forem halucinace je vymýšlení odkazů na dokumentaci nebo vědecké články. Modely často generují důvěryhodně vypadající DOI, které ale neexistují.
Tento jev je tak častý, že byl popsán jako Citation Hallucination Bias (Choubey et al., 2023, arXiv).

Například model o3 při testování startupem Workera generoval odkaz na GitHub repozitář, který neexistoval – a odkazoval na metodu, která nikdy nebyla implementována.

Kontaktujte nás

Jak tento problém řešit?

1.Přístup k internetu a vyhledávání v reálném čase

OpenAI testuje přístup modelů k webu jako nástroj pro ověřování faktů. Například GPT-4o, který má přístup k vyhledávání, dosahuje 90% přesnosti v testu SimpleQA ( OpenAI Blog, 2025).

2. Retrieval-Augmented Generation (RAG)

Tato architektura přidává modelu možnost odpovídat výhradně na základě předem definovaného dokumentového korpusu – což dramaticky snižuje halucinace (Meta AI, 2024, zdroj).

3. Posilování RLHF

Učení s lidskou zpětnou vazbou pomáhá modelu rozpoznávat nevhodné odpovědi.
Například výzkum společnosti Anthropic ukázal snížení halucinací o více než 20 % díky posílení RLHF tréninku (Anthropic, 2023, zdroj).

4. Transparentní citace a zpětné dohledání zdrojů

OpenAI i další společnosti testují možnost, aby modely samy uváděly, odkud čerpají informace. Tím se otevírá prostor pro auditovatelnost výstupu a zvyšuje důvěryhodnost.

Halucinace jako etický i komerční problém

Není to pouze technická výzva. Halucinace podkopávají důvěru v AI v klíčových sektorech – od vzdělávání až po zdravotní péči.
Podle zprávy Stanford HAI z roku 2023 představuje „falešná jistota v odpovědích AI“ největší překážku pro nasazení AI ve veřejných institucích (Stanford HAI).

Zajímavostí je, že podle průzkumu Pew Research Center (2024) více než 73 % lidí věří, že AI by měla být schopna doložit každý výrok konkrétním zdrojem – jinak jí nevěří.

OpenAI o4 mini

Závěr

Modely o3 a o4-mini ukazují technologický pokrok, ale zároveň připomínají, že cesta k důvěryhodné a auditovatelné AI je teprve na začátku.
Zvýšená míra halucinací je přirozeným důsledkem komplexnosti modelu, ale zároveň rizikem, které nelze ignorovat.

Firmy, výzkumníci i veřejné instituce by proto měli věnovat zvýšenou pozornost nejen schopnostem AI, ale i jejich epistemické spolehlivosti – schopnosti rozlišit, co model skutečně ví a co pouze předpokládá.

Gemini 2.5 pro

Gemini 2.5 Pro: Nový Přírůstek do Nástrojů pro Vývoj Aplikací

openai

Nové AI modely OpenAI: Výkonnější, ale méně přesné?

Investiční boom v AI pokračuje: Startupy v USA přitáhly nejvíce kapitálu od roku 2021

Děkujeme!

Velice si važíme Vašeho zájmu o naše AI agenty.

Ozveme se Vám v nejbližších dnech.