Zum Hauptinhalt springenZum Hauptinhalt springen
Microsoft MAI-Voice-1 und MAI-1 Preview
Umělá inteligenceSeptember 1, 2025|2 min

Microsoft MAI-Voice-1 und MAI-1 Preview

Was Microsoft vorgestellt hat Microsoft AI (MAI) hat zwei neue hauseigene Modelle der künstlichen Intelligenz vorgestellt, im Rahmen seiner Mission, KI zu schaffen, die alle Menschen stärkt...

T
Tým Apertia
Apertia.ai
Teilen:

Was Microsoft vorgestellt hat

Microsoft AI (MAI) hat zwei neue hauseigene Modelle der künstlichen Intelligenz vorgestellt, im Rahmen seiner Mission, KI zu schaffen, die alle Menschen auf der ganzen Welt stärkt. Das Unternehmen hat MAI-Voice-1 veröffentlicht, ein Sprachgenerierungsmodell, das in weniger als einer Sekunde auf einer einzigen GPU eine volle Minute Audio erzeugen kann, sowie MAI-1 Preview als grundlegendes End-to-End-trainiertes Modell. Nach Jahren der Abhängigkeit von OpenAI-Technologie baut Microsoft nun endlich seinen eigenen KI-Stack auf. Dieser Schritt hat mehrere entscheidende Gründe:
  • Strategische Unabhängigkeit von externer KI-Technologie
  • Kontrolle über das Innovationstempo ohne auf Partner warten zu müssen
  • Kostenoptimierung durch Eliminierung von API-Gebühren
  • Bessere Integration in das Microsoft-Ökosystem

MAI-Voice-1: Technische Spezifikationen

MAI-Voice-1 ist ein schnelles und flexibles Sprachgenerierungsmodell mit folgenden Schlüsselparametern:

Leistungskennzahlen

  • Geschwindigkeit: Eine volle Minute Audio in weniger als einer Sekunde
  • Hardware: Läuft auf einer einzigen GPU
  • Qualität: Hochwertige expressive Audioausgabe
  • Flexibilität: Unterstützung für Mono- und Multi-Speaker-Szenarien

Praktischer Einsatz in der Produktion

Maßgeschneiderte KI-Lösung gewünscht?

Wir helfen Unternehmen, Prozesse mit KI zu automatisieren. Kontaktieren Sie uns und erfahren Sie, wie wir Ihnen helfen können.

  • Antwort innerhalb von 24 Stunden
  • Unverbindliche Beratung
  • Maßgeschneiderte Lösungen für Ihr Unternehmen
Weitere Kontakte
MAI-Voice-1 treibt bereits Funktionen in mehreren Microsoft-Anwendungen an:
  • Copilot Daily: automatische tägliche Zusammenfassungen mit personalisierter Stimme
  • Copilot Podcasts: Umwandlung von Textinhalten in Audioformat
  • Copilot Labs: eine neue Plattform, auf der Benutzer expressive Sprach- und Erzählfunktionen testen können, einschließlich der Erstellung interaktiver Geschichten und personalisierter Meditationen

Wettbewerbsvorteile

Parameter MAI-Voice-1 Wettbewerb
Geschwindigkeit <1 Sekunde/Minute 3-5 Sekunden/Minute
Hardware 1 GPU Multi-GPU-Cluster
Latenz Ultra-niedrig Standard
Integration Natives Microsoft API-Aufrufe

MAI-1 Preview: Sprachmodell

Architektur- und Trainingsdetails

MAI-1 Preview ist das erste Microsoft-Grundlagenmodell, das End-to-End auf etwa 15.000 NVIDIA H100 GPUs trainiert wurde:
  • Architektur: hauseigenes Mixture-of-Experts (MoE) Modell
  • Design: darauf ausgelegt, Anweisungen zu befolgen und hilfreiche Antworten auf alltägliche Fragen zu geben
  • Optimierung: ausgerichtet auf Verbraucheranwendungen mit Schwerpunkt auf Anweisungsbefolgung
  • Trainingsansatz: vollständiges End-to-End-Training ohne Abhängigkeit von externen Komponenten

Vorteile der MoE-Architektur

  • Effizienz: aktiviert nur relevante Teilmengen von Parametern und reduziert den Rechenaufwand drastisch
  • Skalierbarkeit: Hinzufügen von Expert-Netzwerken für neue Domänen, flexible Ressourcenzuweisung
Bereit loszulegen?

Interessiert an diesem Artikel?

Lassen Sie uns gemeinsam erkunden, wie KI Ihr Unternehmen transformieren kann.

Kontaktieren Sie uns