Čo Microsoft predstavil
Microsoft
AI (MAI) predstavil dva nové interné modely umelej inteligencie v rámci svojej misie vytvoriť
AI, ktorá posilní možnosti ľudí na celom svete. Spoločnosť vydala
MAI-Voice-1, model na generovanie reči, ktorý dokáže vytvoriť celú minútu zvuku za menej než sekundu na jedinom GPU, a
MAI-1 Preview ako základný model trénovaný end-to-end.
Po rokoch spoliehania sa na technológie OpenAI Microsoft konečne buduje vlastný
AI stack. Tento krok má niekoľko kľúčových dôvodov:
- Strategická nezávislosť od externej AI technológie
- Kontrola nad tempom inovácií bez čakania na partnerov
- Optimalizácia nákladov vďaka odstráneniu API poplatkov
- Lepšia integrácia s ekosystémom Microsoftu
MAI-Voice-1: Technické špecifikácie
MAI-Voice-1 je rýchly a flexibilný model na generovanie reči s týmito kľúčovými parametrami:
Výkonnostné metriky
- Rýchlosť: celá minúta audia za menej než sekundu
- Hardvér: beží na jedinom GPU
- Kvalita: expresívne audio s vysokou vernosťou
- Flexibilita: podpora mono aj multi-speaker scenárov
Praktické využitie v produkcii
MAI-Voice-1 už poháňa funkcie vo viacerých aplikáciách Microsoftu:
- Copilot Daily: automatické denné zhrnutia s personalizovaným hlasom
- Copilot Podcasts: prevod textového obsahu do audio formátu
- Copilot Labs: nová platforma, kde môžu používatelia testovať expresívne rečové a rozprávačské schopnosti vrátane tvorby interaktívnych príbehov a personalizovaných meditácií
Konkurenčné výhody
| Parameter |
MAI-Voice-1 |
Konkurencia |
| Rýchlosť |
<1 sekunda/minúta |
3-5 sekúnd/minúta |
| Hardvér |
1 GPU |
Multi-GPU cluster |
| Latencia |
veľmi nízka |
štandardná |
| Integrácia |
natívna pre Microsoft |
API volania |
MAI-1 Preview: Jazykový model
Architektúra a detaily tréningu
MAI-1 Preview je prvý
základný model Microsoftu trénovaný end-to-end približne na 15 000 GPU NVIDIA H100:
- Architektúra: interný mixture-of-experts (MoE) model
- Dizajn: navrhnutý tak, aby nasledoval pokyny a poskytoval užitočné odpovede na každodenné otázky
- Optimalizácia: zameraná na spotrebiteľské použitia s dôrazom na nasledovanie inštrukcií
- Prístup k tréningu: kompletný end-to-end tréning bez spoliehania sa na externé komponenty
Výhody architektúry MoE
- Efektivita: aktivuje iba relevantnú podmnožinu parametrov a výrazne znižuje výpočtové nároky
- Škálovateľnosť: pridávanie expertných sietí pre nové domény a flexibilné prideľovanie zdrojov