Umělá inteligenceMay 5, 2025|4 min

Az OpenAI új AI modelljei: erősebbek, de kevésbé pontosak?

Az OpenAI 2025-ben bemutatta az o3 és o4-mini néven jelölt új nyelvi modelleket, amelyek a hivatalos dokumentáció szerint kiemelkedő eredményeket érnek el a logikai...

Tým Apertia

Apertia.ai

Az OpenAI 2025-ben bemutatta az o3 és o4-mini néven jelölt új nyelvi modelleket, amelyek a hivatalos dokumentáció szerint kiemelkedő eredményeket érnek el a logikai következtetésre, programozásra és tudományos feladatokra fókuszáló teljesítményteszteken. Ezzel szemben a belső tesztek aggasztó trendet mutattak: ezek az újabb modellek lényegesen több valótlan vagy kitalált információt generálnak, mint elődeik (OpenAI, 2025). Az úgynevezett hallucinációk megnövekedett aránya súlyos következményekkel járhat a megbízhatóságra és az AI rendszerek bevezethetőségére olyan területeken, ahol a pontosság kritikus – például az egészségügyben, a jogban vagy a biztonsági analitikában.

A hallucinációk aránya számokban

Az OpenAI PersonQA benchmarkon végzett belső mérései az alábbi összehasonlítást mutatták a modellek generációi között:

Modell	Hallucinációs arány (%)
o1	16
o3-mini	14,8
o3	33
o4-mini	48

Érdekesség, hogy az o3-mini alacsonyabb hallucinációs arányt mutatott, mint az o1, ami azt jelezheti, hogy az alacsonyabb paraméterkapacitás néha paradox módon óvatosabb állításgeneráláshoz vezet.

Want a Custom AI Solution?

We help companies automate processes with AI. Contact us to find out how we can help you.

Response within 24 hours
No-obligation consultation
Solutions tailored to your business

További kontraszt: az o4-mini 68,1%-os eredményt ért el a SWE-bench Verified benchmarkon, ami jóval magasabb, mint például a Claude 3.7 Sonnet (62,3%) – mégis az o4-mini a leginkább hallucinációra hajlamos.

Miért „találnak ki” a modellek?

1. A generatív AI statisztikai természete

Az o3-hoz hasonló modellek nem tényadatbázisok, hanem a következő szó predikciójára épülő rendszerek. Ha a modell a tréning során soha nem „látta” az adott tényt, saját becslést készít.
Ez a mechanizmus lehetővé teszi például a kreatív írást, de a hallucinációk egyik fő oka is, különösen szakmai kérdések esetén.

2. A metakogníció hiánya

A Nature folyóiratban megjelent kutatás szerint a modellek nem képesek saját bizonytalanságuk reflektálására:
„A modellnek nincs olyan mechanizmusa, amellyel a saját állítását spekulációként jelölhetné” (Li et al., 2024, Nature AI).

3. Túlzott optimalizálás a teljesítményre

A GPQA vagy a MATH benchmarkok jelenleg domináns tréningcélok – és nem mindig tükrözik a valóságot. A modelleket így inkább a teljesítményre, mintsem a megbízhatóságra hangolják.

Érdekesség: hallucinációk „idézeteknél” és hivatkozásoknál

A hallucináció egyik legfeltűnőbb formája a dokumentációkra vagy tudományos cikkekre mutató hivatkozások kitalálása. A modellek gyakran hitelesnek tűnő DOI-kat generálnak, amelyek valójában nem léteznek.
Ez a jelenség annyira gyakori, hogy Citation Hallucination Bias néven írták le (Choubey et al., 2023, arXiv).

Például az o3 modellt a Workera startup tesztjein olyan GitHub-repozitóriumra hivatkozott, amely nem létezett – és egy olyan módszerre utalt, amelyet soha nem implementáltak.