Umělá inteligenceSeptember 1, 2025|2 min

Microsoft MAI-Voice-1 és MAI-1 Preview

Mit mutatott be a Microsoft? A Microsoft AI (MAI) két új belső mesterséges intelligencia modellt mutatott be annak a küldetésnek a részeként, hogy olyan AI-t építsen, amely...

Tým Apertia

Apertia.ai

Mit mutatott be a Microsoft?

A Microsoft AI (MAI) két új belső mesterséges intelligencia modellt mutatott be annak a küldetésnek a részeként, hogy olyan AI-t építsen, amely megerősíti az emberek képességeit világszerte. A vállalat kiadta a MAI-Voice-1 beszédgeneráló modellt, amely egyetlen GPU-n kevesebb mint egy másodperc alatt képes egy teljes percnyi hangot előállítani, valamint a MAI-1 Preview alapmodellt, amely end-to-end módon került betanításra. Az OpenAI technológiáira támaszkodó évek után a Microsoft végre saját AI stacket épít. Ennek több kulcsfontosságú oka van:

Stratégiai függetlenség a külső AI technológiáktól
Az innovációs tempó kontrollja partneri várakozás nélkül
Költségoptimalizálás az API-díjak megszüntetésével
Jobb integráció a Microsoft ökoszisztémájával

MAI-Voice-1: Technikai specifikációk

A MAI-Voice-1 egy gyors és rugalmas beszédgeneráló modell az alábbi kulcsparaméterekkel:

Teljesítménymutatók

Sebesség: Egy teljes percnyi audio kevesebb mint 1 másodperc alatt
Hardver: Egyetlen GPU-n fut
Minőség: High-fidelity, expresszív hang
Rugalmasság: Mono és multi-speaker forgatókönyvek támogatása

Gyakorlati alkalmazás a termékekben

Want a Custom AI Solution?

We help companies automate processes with AI. Contact us to find out how we can help you.

Response within 24 hours
No-obligation consultation
Solutions tailored to your business

A MAI-Voice-1 már több Microsoft alkalmazás funkcióit is meghajtja:

Copilot Daily: automatikus napi összefoglalók személyre szabott hanggal
Copilot Podcasts: szöveges tartalom átalakítása audió formátummá
Copilot Labs: új platform, ahol a felhasználók expresszív beszéd- és narrációs képességeket tesztelhetnek, beleértve az interaktív történetek és személyre szabott meditációk készítését

Versenyelőnyök

Paraméter	MAI-Voice-1	Versenytársak
Sebesség	<1 másodperc/perc	3–5 másodperc/perc
Hardver	1 GPU	Multi-GPU klaszter
Késleltetés	Ultra-alacsony	Standard
Integráció	Natív Microsoft	API-hívások

MAI-1 Preview: Nyelvi modell

Architektúra és betanítási részletek

A MAI-1 Preview az első Microsoft alapmodell, amelyet end-to-end módon tanítottak be közel 15 000 NVIDIA H100 GPU-val:

Architektúra: saját fejlesztésű mixture-of-experts (MoE) modell
Tervezés: utasításkövetésre és a mindennapi kérdések hasznos megválaszolására optimalizálva
Optimalizáció: fogyasztói felhasználási esetekre, az instruction following fókuszával
Betanítási megközelítés: teljes end-to-end tréning külső komponensek nélkül

A MoE architektúra előnyei

Hatékonyság: csak a releváns paraméterrészletet aktiválja, jelentősen csökkentve a számítási igényt
Skálázhatóság: új domain-ekhez expert hálózatok hozzáadása, rugalmas erőforrás-allokáció