Umělá inteligenceSeptember 1, 2025|2 min

Microsoft MAI-Voice-1 und MAI-1 Preview

Was Microsoft vorgestellt hat Microsoft AI (MAI) hat zwei neue hauseigene Modelle der künstlichen Intelligenz vorgestellt, im Rahmen seiner Mission, KI zu schaffen, die alle Menschen stärkt...

Tým Apertia

Apertia.ai

Was Microsoft vorgestellt hat

Microsoft AI (MAI) hat zwei neue hauseigene Modelle der künstlichen Intelligenz vorgestellt, im Rahmen seiner Mission, KI zu schaffen, die alle Menschen auf der ganzen Welt stärkt. Das Unternehmen hat MAI-Voice-1 veröffentlicht, ein Sprachgenerierungsmodell, das in weniger als einer Sekunde auf einer einzigen GPU eine volle Minute Audio erzeugen kann, sowie MAI-1 Preview als grundlegendes End-to-End-trainiertes Modell. Nach Jahren der Abhängigkeit von OpenAI-Technologie baut Microsoft nun endlich seinen eigenen KI-Stack auf. Dieser Schritt hat mehrere entscheidende Gründe:

Strategische Unabhängigkeit von externer KI-Technologie
Kontrolle über das Innovationstempo ohne auf Partner warten zu müssen
Kostenoptimierung durch Eliminierung von API-Gebühren
Bessere Integration in das Microsoft-Ökosystem

MAI-Voice-1: Technische Spezifikationen

MAI-Voice-1 ist ein schnelles und flexibles Sprachgenerierungsmodell mit folgenden Schlüsselparametern:

Leistungskennzahlen

Geschwindigkeit: Eine volle Minute Audio in weniger als einer Sekunde
Hardware: Läuft auf einer einzigen GPU
Qualität: Hochwertige expressive Audioausgabe
Flexibilität: Unterstützung für Mono- und Multi-Speaker-Szenarien

Praktischer Einsatz in der Produktion

Maßgeschneiderte KI-Lösung gewünscht?

Wir helfen Unternehmen, Prozesse mit KI zu automatisieren. Kontaktieren Sie uns und erfahren Sie, wie wir Ihnen helfen können.

Antwort innerhalb von 24 Stunden
Unverbindliche Beratung
Maßgeschneiderte Lösungen für Ihr Unternehmen

MAI-Voice-1 treibt bereits Funktionen in mehreren Microsoft-Anwendungen an:

Copilot Daily: automatische tägliche Zusammenfassungen mit personalisierter Stimme
Copilot Podcasts: Umwandlung von Textinhalten in Audioformat
Copilot Labs: eine neue Plattform, auf der Benutzer expressive Sprach- und Erzählfunktionen testen können, einschließlich der Erstellung interaktiver Geschichten und personalisierter Meditationen

Wettbewerbsvorteile

Parameter	MAI-Voice-1	Wettbewerb
Geschwindigkeit	<1 Sekunde/Minute	3-5 Sekunden/Minute
Hardware	1 GPU	Multi-GPU-Cluster
Latenz	Ultra-niedrig	Standard
Integration	Natives Microsoft	API-Aufrufe

MAI-1 Preview: Sprachmodell

Architektur- und Trainingsdetails

MAI-1 Preview ist das erste Microsoft-Grundlagenmodell, das End-to-End auf etwa 15.000 NVIDIA H100 GPUs trainiert wurde:

Architektur: hauseigenes Mixture-of-Experts (MoE) Modell
Design: darauf ausgelegt, Anweisungen zu befolgen und hilfreiche Antworten auf alltägliche Fragen zu geben
Optimierung: ausgerichtet auf Verbraucheranwendungen mit Schwerpunkt auf Anweisungsbefolgung
Trainingsansatz: vollständiges End-to-End-Training ohne Abhängigkeit von externen Komponenten

Vorteile der MoE-Architektur

Effizienz: aktiviert nur relevante Teilmengen von Parametern und reduziert den Rechenaufwand drastisch
Skalierbarkeit: Hinzufügen von Expert-Netzwerken für neue Domänen, flexible Ressourcenzuweisung