OpenAI bemutatta a Sora 2-t – a videó- és hanggenerálásra szolgáló
AI modell új generációját. A technológiai frissítéssel együtt egy közösségi alkalmazás is érkezett, amely Sam Altman vezérigazgató szerint
\"a ChatGPT-pillanat a kreativitás számára\". Az első 24 órában a Sora a Photo & Video kategória legtöbbet letöltött alkalmazása lett az iOS App Store-ban.
Mi a Sora 2
A Sora 2 evolúciós ugrás az eredeti modellhez képest, amelyet az OpenAI először 2024 februárjában mutatott be, a nyilvánosság számára pedig csak ugyanazon év decemberében tette elérhetővé.
-
Videó hossza: akár 20 másodperc high-definition minőségben
-
Szinkronizált audio: párbeszédek, hanghatások és ambient hangok automatikus generálása
-
Fizikai realizmus: a fizikai törvények (gravitáció, momentum, ütközések) jobb szimulációja
-
Steerability: fejlett kontroll a kamera mozgásai, a stílus és a többjelenetes szekvenciák felett
-
Stílusbeli variabilitás: a fotorealizmustól az animén át a szürreális kimenetekig
Technológiai előrelépés a Sora 1-hez képest
OpenAI az eredeti Sorát a videó \"GPT-1 pillanatához\" hasonlítja – ahhoz az első ponthoz, amikor a videógenerálás már használhatónak tűnt. A Sora 2 a vállalat szerint közelebb visz a \"GPT-3.5 pillanathoz\" lényegesen fejlettebb képességekkel.
-
Fizikai szimuláció: a labda kosárba \"teleportálása\" helyett a Sora 2 valósághűen jeleníti meg a palánkról való lepattanást sikertelen dobás esetén. A modell jobban tiszteletben tartja a momentumot, a felhajtóerőt és egyéb fizikai tulajdonságokat.
-
Objektumkonzisztencia: képesség az objektumok és szereplők következetes megjelenésének megtartására több beállításon és kameramozgáson keresztül, ami az első modell gyenge pontja volt.
-
Audio-videó szinkronizáció: a versenytársakkal ellentétben a Sora 2 a videót és a hangot együtt generálja, nem külön. Ez koherensebb eredményt ad utólagos hangkeverés nélkül.
-
Multi-shot storyboarding: képesség összetett utasítások követésére több beállításon át, miközben megőrzi a világ és a történet konzisztenciáját.
Sora alkalmazás: közösségi hálózat AI-videókhoz
OpenAI nemcsak egy modellt, hanem egy teljes ökoszisztémát indított, amelyet a TikTok és az Instagram Reels inspirált.
Az alkalmazás fő funkciói
| Funkció |
Leírás |
Gyakorlati felhasználás |
| Create |
Videók generálása szöveges leírásból vagy képből |
Alaptartalom készítése, ötletek gyors prototipizálása |
| Remix |
Más felhasználók meglévő videóinak módosítása |
Kollaboratív alkotás, sikeres koncepciók iterálása |
| Cameos |
Saját megjelenés beillesztése a generált videókba |
Személyre szabott tartalom, virális trendek |
| Feed (For You) |
Személyre szabott feed, amely az alkotáshoz inspirál |
Stílusok felfedezése, tanulás a közösségtől |
| Direct Messages |
Videók megosztása kiválasztott felhasználókkal |
Privát együttműködés, tesztelés publikálás előtt |
Cameos: forradalmi funkció etikai kérdőjelekkel
Hogyan működik a Cameos
-
Egyszeri feltöltés: a felhasználó rövid videót és hangsávot tölt fel a megjelenés és a hang rögzítéséhez
-
Liveness check: az OpenAI hangalapú kihívásokkal ellenőrzi az autentikusságot a deepfake visszaélések megelőzése érdekében
-
Granuláris jogosultságok: a felhasználó szabályozza, ki használhatja a megjelenését (csak én, kiválasztott barátok, kölcsönös kontaktok, mindenki)
-
Törléshez való jog: a felhasználó bármikor törölheti a megjelenését tartalmazó bármely videót, beleértve a nem publikált koncepciókat is
-
Testreszabás: lehetőség annak módosítására, hogyan ábrázolja a modell a felhasználót (ruházati hallucinációk javítása, akcentus stb.)
Az OpenAI belső tesztelése során a munkatársak arról számoltak be, hogy a Cameos funkciónak köszönhetően új kollégákat ismertek meg, akikkel egyébként nem találkoztak volna – új, kreatív együttműködésen alapuló társadalmi dinamika jön létre.
A felelős fejlesztés elvei Sam Altman szerint
Az OpenAI vezérigazgatója, Sam Altman a blogjában nyíltan tárgyalja a Sora 2-vel kapcsolatos előnyöket és kockázatokat.
\"Social media has had some good effects on the world, but it's also had some bad ones. We are aware of how addictive a service like this could become, and we can imagine many ways it could be used for bullying.\"
— Sam Altman, CEO OpenAI
-
Hosszú távú elégedettségre optimalizálás: a felhasználók többségének 6 hónap után azt kell éreznie, hogy az élete jobb a Sora használatával. Ha nem, az OpenAI jelentős változtatásokat hajt végre, vagy megszünteti a szolgáltatást.
-
A feed feletti kontroll: a felhasználók megmondhatják a Sorának, mit szeretnének látni – relaxáló tartalmakat, energizáló videókat, konkrét érdeklődéseket, időkorlátokat. A szülői felügyelet lehetővé teszi a személyre szabás kikapcsolását.
-
A tartalomkészítés prioritása: a cél, hogy a tartalomkészítés mindenki számára egyszerű és jutalmazó legyen. A meggyőződés az, hogy az emberek természetes alkotók, és az alkotás a jóllét kulcsa.
-
Hosszú távú célok támogatása: törekvés a felhasználók valós céljainak megértésére és elérésük támogatására – a jobb kapcsolatoktól a fittségen át a vállalkozásig.
Etikai aggodalmak és mitigáció
-
Függőség kockázata: Altman nyíltan beszél az \"RL-optimized slop feed\" létrehozásának lehetőségéről – egy olyan algoritmusról, amely a felhasználó életminőségének rovására maximalizálja az alkalmazásban eltöltött időt.
-
Zaklatás megelőzése: a csapat visszaélés elleni védelmi megoldásokon dolgozik, beleértve a hangulatra és a felhasználók jóllétére gyakorolt hatás rendszeres ellenőrzését.
-
Deepfake megelőzés: védelem mások megjelenésének hozzájárulás nélküli felhasználása ellen, korlátozások közszereplők esetén.
Jogi helyzet
-
Folyamatban lévő perek: az OpenAI szerzők – többek között Ta-Nehisi Coates és Jodi Picoult –, újságok, például a New York Times, valamint más szerzői jogi jogosultak részéről indított keresetekkel néz szembe.
-
Precedens: a versenytárs Anthropic nemrégiben 1,5 milliárd dollár kifizetésébe egyezett bele egy olyan megállapodás keretében, amelynek során a szerzők azt állították, hogy a vállalat jogellenesen töltötte le és használta fel könyveiket AI-modellek képzésére.
-
Jogi bizonytalanság: továbbra sem világos jogilag a különbség a védett tartalom modellek tanításához inputként való felhasználása és a védett tartalmat megjelenítő kimenetek generálása között.
\"Since Sora 2's release, videos that infringe our members' films, shows, and characters have proliferated on OpenAI's service and across social media.\"
— Charles Rivkin, CEO Motion Picture Association
Az OpenAI nem tárgyal Hollywooddal
A versenytárs Runwaytől eltérően, amely partneri megállapodást kötött a Lionsgate-tel, hogy teljes jogosultságot kapjon filmjeik
AI-modellek tréningjéhez történő felhasználására, az OpenAI-nak egyelőre nincs ilyen megállapodása a nagy stúdiókkal. Ez arra utal, hogy az OpenAI prioritásai máshol vannak, mint a professzionális filmgyártásban.
Összehasonlítás a versenytársakkal
Az
AI-videógenerátorok piaca 2025-ben jelentősen bővült. Hogyan áll a Sora 2 a versenytársakhoz képest?
| Modell |
Max. hossz |
Audio |
Fizika |
Fő előny |
| Sora 2 (OpenAI) |
20 másodperc |
✓ Szintetikus |
Fejlett |
A leghosszabb videók, kategóriaelső fizika, cameos |
| Runway Gen-4 |
10 másodperc |
✓ Generált |
Jó |
Professzionális eszközök, Lionsgate-partnerség |
| Veo 3 (Google) |
~10 másodperc |
✗ Még nem |
Jó |
YouTube-adatokon tanítva, Google-integráció |
| Kling AI |
5 másodperc |
✗ Nem |
Alap |
Gyors generálás, alacsonyabb ár |
| Luma Dream Machine |
5 másodperc |
✗ Nem |
Közepes |
Nagyon gyors generálás (30 mp) |
A kreativitás új korszaka vagy Pandora szelencéje?
A Sora 2 tagadhatatlanul jelentős technológiai ugrás az
AI-alapú videógenerálás területén.
A professzionális minőségű, 20 másodperces videók, a szinkronizált hang és a fejlett fizikai szimuláció már mindenki számára elérhető, aki hozzáfér az alkalmazáshoz.
Sam Altman ezt
\"ChatGPT-pillanatnak a kreativitás számára\" nevezi – a ChatGPT 2022 novemberi indulásához hasonlóan, amely megváltoztatta, ahogyan az emberek a szöveges tartalomhoz viszonyulnak. Hogy a Sora 2 ilyen pillanat lesz-e a
videó számára, azt csak az idő fogja megmutatni.
Kulcskérdések továbbra is megválaszolatlanok
-
Hogyan rendezik majd a szerzői jogi vitákat a hollywoodi stúdiókkal?
-
Képes lesz az OpenAI valóban megakadályozni egy addiktív \"slop feed\" létrejöttét?
-
Milyen gyorsan válik a technológia széles körben elérhetővé (az invite-only módon túl)?
-
Milyen lesz az API és a produkciós felhasználás árszabása?
Egy dolog biztos:
a valódi és a mesterséges tartalom közötti határ épp most tolódott el drámaian. Hogy ez egy \"Cambrian explosion of creativity\"-hez vezet, ahogy Altman jósolja, vagy egy deepfake-ekkel és algoritmikusan optimalizált tartalommal teli disztópikus világhoz, az attól függ, milyen döntéseket hozunk társadalomként a következő hónapokban és években.