Ce que Microsoft a présenté
Microsoft
AI (MAI) a présenté deux nouveaux modèles d'intelligence artificielle développés en interne dans le cadre de sa mission de créer une IA qui donne du pouvoir à tous les habitants de la planète. L'entreprise a publié
MAI-Voice-1, un modèle de génération vocale capable de produire une minute entière d'audio en moins d'une seconde sur un seul GPU, et
MAI-1 Preview en tant que modèle fondamental entraîné de bout en bout.
Après des années de dépendance à la technologie OpenAI, Microsoft construit enfin sa propre pile IA. Cette démarche a plusieurs raisons clés :
- Indépendance stratégique vis-à-vis de la technologie IA externe
- Contrôle du rythme d'innovation sans attendre les partenaires
- Optimisation des coûts par l'élimination des frais d'API
- Meilleure intégration avec l'écosystème Microsoft
MAI-Voice-1 : Spécifications techniques
MAI-Voice-1 est un modèle de génération vocale rapide et flexible avec les paramètres clés suivants :
Indicateurs de performance
- Vitesse : Une minute complète d'audio en moins d'une seconde
- Matériel : Fonctionne sur un seul GPU
- Qualité : Audio expressif haute fidélité
- Flexibilité : Prise en charge des scénarios mono et multi-locuteurs
Utilisation pratique en production
MAI-Voice-1 alimente déjà des fonctionnalités dans plusieurs applications Microsoft :
- Copilot Daily : résumés quotidiens automatiques avec voix personnalisée
- Copilot Podcasts : conversion de contenu textuel en format audio
- Copilot Labs : une nouvelle plateforme où les utilisateurs peuvent tester les capacités vocales expressives et de narration, y compris la création d'histoires interactives et de méditations personnalisées
Avantages concurrentiels
| Paramètre |
MAI-Voice-1 |
Concurrence |
| Vitesse |
<1 seconde/minute |
3-5 secondes/minute |
| Matériel |
1 GPU |
Cluster multi-GPU |
| Latence |
Ultra-faible |
Standard |
| Intégration |
Microsoft natif |
Appels API |
MAI-1 Preview : Modèle de langage
Détails d'architecture et d'entraînement
MAI-1 Preview est le premier
Microsoft modèle fondamental entraîné de bout en bout sur environ 15 000 GPU NVIDIA H100 :
- Architecture : modèle mixture-of-experts (MoE) développé en interne
- Conception : conçu pour suivre les instructions et fournir des réponses utiles aux questions quotidiennes
- Optimisation : axé sur les cas d'utilisation grand public avec un accent sur le suivi d'instructions
- Approche d'entraînement : entraînement complet de bout en bout sans dépendre de composants externes
Avantages de l'architecture MoE
- Efficacité : n'active que le sous-ensemble pertinent de paramètres, réduisant considérablement les besoins en calcul
- Évolutivité : ajout de réseaux d'experts pour de nouveaux domaines, allocation flexible des ressources