Preskočiť na hlavný obsahPreskočiť na hlavný obsah
Apertia.ai
Microsoft MAI-Voice-1 a MAI-1 Preview
AI modely & technologie1. septembra 2025|2 min

Microsoft MAI-Voice-1 a MAI-1 Preview

Microsoft AI predstavil dva nové interné modely umelej inteligencie: hlasový model MAI-Voice-1 a základný jazykový model MAI-1 Preview.

T
Tým Apertia
Apertia.ai
Zdieľať:

Čo Microsoft predstavil

Microsoft AI (MAI) predstavil dva nové interné modely umelej inteligencie v rámci svojej misie vytvoriť AI, ktorá posilní možnosti ľudí na celom svete. Spoločnosť vydala MAI-Voice-1, model na generovanie reči, ktorý dokáže vytvoriť celú minútu zvuku za menej než sekundu na jedinom GPU, a MAI-1 Preview ako základný model trénovaný end-to-end. Po rokoch spoliehania sa na technológie OpenAI Microsoft konečne buduje vlastný AI stack. Tento krok má niekoľko kľúčových dôvodov:
  • Strategická nezávislosť od externej AI technológie
  • Kontrola nad tempom inovácií bez čakania na partnerov
  • Optimalizácia nákladov vďaka odstráneniu API poplatkov
  • Lepšia integrácia s ekosystémom Microsoftu

MAI-Voice-1: Technické špecifikácie

MAI-Voice-1 je rýchly a flexibilný model na generovanie reči s týmito kľúčovými parametrami:

Výkonnostné metriky

  • Rýchlosť: celá minúta audia za menej než sekundu
  • Hardvér: beží na jedinom GPU
  • Kvalita: expresívne audio s vysokou vernosťou
  • Flexibilita: podpora mono aj multi-speaker scenárov

Praktické využitie v produkcii

Chcete AI riešenie na mieru?

Pomáhame firmám automatizovať procesy pomocou AI. Napíšte nám a zistite, ako môžeme pomôcť práve vám.

  • Odpoveď do 24 hodín
  • Nezáväzná konzultácia
  • Riešenia na mieru vašej firme
Viac kontaktov
MAI-Voice-1 už poháňa funkcie vo viacerých aplikáciách Microsoftu:
  • Copilot Daily: automatické denné zhrnutia s personalizovaným hlasom
  • Copilot Podcasts: prevod textového obsahu do audio formátu
  • Copilot Labs: nová platforma, kde môžu používatelia testovať expresívne rečové a rozprávačské schopnosti vrátane tvorby interaktívnych príbehov a personalizovaných meditácií

Konkurenčné výhody

Parameter MAI-Voice-1 Konkurencia
Rýchlosť <1 sekunda/minúta 3-5 sekúnd/minúta
Hardvér 1 GPU Multi-GPU cluster
Latencia veľmi nízka štandardná
Integrácia natívna pre Microsoft API volania

MAI-1 Preview: Jazykový model

Architektúra a detaily tréningu

MAI-1 Preview je prvý základný model Microsoftu trénovaný end-to-end približne na 15 000 GPU NVIDIA H100:
  • Architektúra: interný mixture-of-experts (MoE) model
  • Dizajn: navrhnutý tak, aby nasledoval pokyny a poskytoval užitočné odpovede na každodenné otázky
  • Optimalizácia: zameraná na spotrebiteľské použitia s dôrazom na nasledovanie inštrukcií
  • Prístup k tréningu: kompletný end-to-end tréning bez spoliehania sa na externé komponenty

Výhody architektúry MoE

  • Efektivita: aktivuje iba relevantnú podmnožinu parametrov a výrazne znižuje výpočtové nároky
  • Škálovateľnosť: pridávanie expertných sietí pre nové domény a flexibilné prideľovanie zdrojov
Pripravení začať?

Zaujal vás tento článok?

Poďme spolu preskúmať, ako AI môže transformovať vaše podnikanie.

Kontaktujte nás