Qué presentó Microsoft
Microsoft
AI (MAI) ha presentado dos nuevos modelos internos de inteligencia artificial como parte de su misión de crear una IA que empodere a todas las personas en el mundo. La empresa lanzó
MAI-Voice-1, un modelo de generación de voz capaz de producir un minuto completo de audio en menos de un segundo en una sola GPU, y
MAI-1 Preview como modelo fundacional entrenado de extremo a extremo.
Tras años de depender de la tecnología de OpenAI, Microsoft finalmente está construyendo su propia pila de IA. Este movimiento tiene varias razones clave:
- Independencia estratégica de tecnología de IA externa
- Control del ritmo de innovación sin esperar a socios
- Optimización de costos al eliminar tarifas de API
- Mejor integración con el ecosistema Microsoft
MAI-Voice-1: especificaciones técnicas
MAI-Voice-1 es un modelo rápido y flexible de generación de voz con estos parámetros clave:
Métricas de rendimiento
- Velocidad: un minuto completo de audio en menos de un segundo
- Hardware: funciona en una sola GPU
- Calidad: audio expresivo de alta fidelidad
- Flexibilidad: soporte para escenarios mono y multi‑locutor
Uso práctico en producción
MAI-Voice-1 ya impulsa funciones en varias aplicaciones de Microsoft:
- Copilot Daily: resúmenes diarios automáticos con voz personalizada
- Copilot Podcasts: conversión de contenido de texto a formato de audio
- Copilot Labs: una nueva plataforma donde los usuarios pueden probar voz expresiva y capacidades de narración, incluyendo historias interactivas y meditaciones personalizadas
Ventajas competitivas
| Parámetro |
MAI-Voice-1 |
Competencia |
| Velocidad |
<1 segundo/minuto |
3-5 segundos/minuto |
| Hardware |
1 GPU |
Clúster multi‑GPU |
| Latencia |
Ultra baja |
Estándar |
| Integración |
Nativa de Microsoft |
Llamadas a API |
MAI-1 Preview: modelo de lenguaje
Arquitectura y detalles de entrenamiento
MAI-1 Preview es el primer
modelo fundacional de Microsoft entrenado de extremo a extremo en aproximadamente 15.000 GPUs NVIDIA H100:
- Arquitectura: modelo Mixture-of-Experts (MoE) propio
- Diseño: orientado a seguir instrucciones y ofrecer respuestas útiles a preguntas cotidianas
- Optimización: centrada en casos de uso de consumo con énfasis en seguir instrucciones
- Enfoque de entrenamiento: entrenamiento completo de extremo a extremo sin depender de componentes externos
Beneficios de la arquitectura MoE
- Eficiencia: activa solo el subconjunto relevante de parámetros, reduciendo drásticamente los requisitos computacionales
- Escalabilidad: permite añadir redes expertas para nuevos dominios y una asignación flexible de recursos