Umělá inteligenceSeptember 1, 2025|2 min

Microsoft MAI-Voice-1 y MAI-1 Preview

Qué presentó Microsoft. Microsoft AI (MAI) ha presentado dos nuevos modelos internos de inteligencia artificial como parte de su misión de crear una IA que empodere a todas las personas...

Tým Apertia

Apertia.ai

Qué presentó Microsoft

Microsoft AI (MAI) ha presentado dos nuevos modelos internos de inteligencia artificial como parte de su misión de crear una IA que empodere a todas las personas en el mundo. La empresa lanzó MAI-Voice-1, un modelo de generación de voz capaz de producir un minuto completo de audio en menos de un segundo en una sola GPU, y MAI-1 Preview como modelo fundacional entrenado de extremo a extremo. Tras años de depender de la tecnología de OpenAI, Microsoft finalmente está construyendo su propia pila de IA. Este movimiento tiene varias razones clave:

Independencia estratégica de tecnología de IA externa
Control del ritmo de innovación sin esperar a socios
Optimización de costos al eliminar tarifas de API
Mejor integración con el ecosistema Microsoft

MAI-Voice-1: especificaciones técnicas

MAI-Voice-1 es un modelo rápido y flexible de generación de voz con estos parámetros clave:

Métricas de rendimiento

Velocidad: un minuto completo de audio en menos de un segundo
Hardware: funciona en una sola GPU
Calidad: audio expresivo de alta fidelidad
Flexibilidad: soporte para escenarios mono y multi‑locutor

Uso práctico en producción

MAI-Voice-1 ya impulsa funciones en varias aplicaciones de Microsoft:

Copilot Daily: resúmenes diarios automáticos con voz personalizada
Copilot Podcasts: conversión de contenido de texto a formato de audio
Copilot Labs: una nueva plataforma donde los usuarios pueden probar voz expresiva y capacidades de narración, incluyendo historias interactivas y meditaciones personalizadas

¿Quiere una solución de IA personalizada?

Ayudamos a las empresas a automatizar procesos con IA. Contáctenos para saber cómo podemos ayudarle.

Respuesta en 24 horas
Consulta sin compromiso
Soluciones a medida para su empresa

Ventajas competitivas

Parámetro	MAI-Voice-1	Competencia
Velocidad	<1 segundo/minuto	3-5 segundos/minuto
Hardware	1 GPU	Clúster multi‑GPU
Latencia	Ultra baja	Estándar
Integración	Nativa de Microsoft	Llamadas a API

MAI-1 Preview: modelo de lenguaje

Arquitectura y detalles de entrenamiento

MAI-1 Preview es el primer modelo fundacional de Microsoft entrenado de extremo a extremo en aproximadamente 15.000 GPUs NVIDIA H100:

Arquitectura: modelo Mixture-of-Experts (MoE) propio
Diseño: orientado a seguir instrucciones y ofrecer respuestas útiles a preguntas cotidianas
Optimización: centrada en casos de uso de consumo con énfasis en seguir instrucciones
Enfoque de entrenamiento: entrenamiento completo de extremo a extremo sin depender de componentes externos

Beneficios de la arquitectura MoE

Eficiencia: activa solo el subconjunto relevante de parámetros, reduciendo drásticamente los requisitos computacionales
Escalabilidad: permite añadir redes expertas para nuevos dominios y una asignación flexible de recursos