Mit mutatott be a Microsoft?
A Microsoft
AI (MAI) két új belső mesterséges intelligencia modellt mutatott be annak a küldetésnek a részeként, hogy olyan
AI-t építsen, amely megerősíti az emberek képességeit világszerte. A vállalat kiadta a
MAI-Voice-1 beszédgeneráló modellt, amely egyetlen GPU-n kevesebb mint egy másodperc alatt képes egy teljes percnyi hangot előállítani, valamint a
MAI-1 Preview alapmodellt, amely end-to-end módon került betanításra.
Az OpenAI technológiáira támaszkodó évek után a Microsoft végre saját
AI stacket épít. Ennek több kulcsfontosságú oka van:
- Stratégiai függetlenség a külső AI technológiáktól
- Az innovációs tempó kontrollja partneri várakozás nélkül
- Költségoptimalizálás az API-díjak megszüntetésével
- Jobb integráció a Microsoft ökoszisztémájával
MAI-Voice-1: Technikai specifikációk
A MAI-Voice-1 egy gyors és rugalmas beszédgeneráló modell az alábbi kulcsparaméterekkel:
Teljesítménymutatók
- Sebesség: Egy teljes percnyi audio kevesebb mint 1 másodperc alatt
- Hardver: Egyetlen GPU-n fut
- Minőség: High-fidelity, expresszív hang
- Rugalmasság: Mono és multi-speaker forgatókönyvek támogatása
Gyakorlati alkalmazás a termékekben
A MAI-Voice-1 már több Microsoft alkalmazás funkcióit is meghajtja:
- Copilot Daily: automatikus napi összefoglalók személyre szabott hanggal
- Copilot Podcasts: szöveges tartalom átalakítása audió formátummá
- Copilot Labs: új platform, ahol a felhasználók expresszív beszéd- és narrációs képességeket tesztelhetnek, beleértve az interaktív történetek és személyre szabott meditációk készítését
Versenyelőnyök
| Paraméter |
MAI-Voice-1 |
Versenytársak |
| Sebesség |
<1 másodperc/perc |
3–5 másodperc/perc |
| Hardver |
1 GPU |
Multi-GPU klaszter |
| Késleltetés |
Ultra-alacsony |
Standard |
| Integráció |
Natív Microsoft |
API-hívások |
MAI-1 Preview: Nyelvi modell
Architektúra és betanítási részletek
A MAI-1 Preview az első
Microsoft alapmodell, amelyet end-to-end módon tanítottak be közel 15 000 NVIDIA H100 GPU-val:
- Architektúra: saját fejlesztésű mixture-of-experts (MoE) modell
- Tervezés: utasításkövetésre és a mindennapi kérdések hasznos megválaszolására optimalizálva
- Optimalizáció: fogyasztói felhasználási esetekre, az instruction following fókuszával
- Betanítási megközelítés: teljes end-to-end tréning külső komponensek nélkül
A MoE architektúra előnyei
- Hatékonyság: csak a releváns paraméterrészletet aktiválja, jelentősen csökkentve a számítási igényt
- Skálázhatóság: új domain-ekhez expert hálózatok hozzáadása, rugalmas erőforrás-allokáció