ElevenLabs ha lanzado Eleven v3 (Alpha), su modelo de texto a voz más avanzado hasta la fecha. El nuevo modelo aporta mejoras significativas en la expresividad y la naturalidad del lenguaje sintético y amplía considerablemente las posibilidades para aplicaciones profesionales.
Introducing Eleven v3 (alpha) – the most expressive Text to Speech model ever.
— ElevenLabs (@elevenlabsio) June 5, 2025
Supporting 70+ languages, multi-speaker dialogue, and audio tags such as [excited], [sighs], [laughing], and [whispers].
Now in public alpha and 80% off in June. pic.twitter.com/n56BersdUc
Etiquetas de audio: control preciso de las emociones y el estilo
La característica central de ElevenLabs v3 son las etiquetas de audio en línea. Estas permiten a los usuarios controlar de forma específica los aspectos emocionales y estilísticos del lenguaje generado.
Las etiquetas funcionan como instrucciones directas en el texto:
- [whispers] para pasajes suaves y confidenciales
- [laughs] para risas naturales
- [angry] para momentos de enfado o intensidad
- [excited] para expresiones entusiastas
- [sighs] para pausas reflexivas
Estos elementos de control también se pueden combinar: [happily][shouts] ¡Lo hemos conseguido! [laughs] . El resultado es una salida de voz que suena mucho más natural y expresiva que los sistemas anteriores.
Amplio soporte lingüístico: más de 70 idiomas disponibles
ElevenLabs v3 es compatible con más de 70 idiomas, lo que cubre gran parte de la comunicación mundial. La gama abarca desde idiomas muy extendidos, como el alemán, el inglés y el chino mandarín, hasta idiomas menos comunes, como el luxemburgués o el lingala.
El modelo tiene en cuenta las peculiaridades específicas de cada idioma, como los acentos regionales, los patrones de acentuación cultural y la melodía característica de los diferentes idiomas. Los textos en alemán suenan auténticamente alemanes, mientras que los textos en francés conservan la entonación típica de este idioma.
Modo de diálogo: conversaciones naturales entre varios interlocutores
Una novedad importante es el modo de texto a diálogo. Por primera vez, los usuarios pueden generar conversaciones realistas entre diferentes hablantes. El sistema domina:
- Interrupciones naturales en el flujo de la conversación
- Transiciones emocionales entre diferentes hablantes
- Reacciones contextuales a comentarios anteriores
- Cambios fluidos de hablante sin interrupciones audibles
La nueva API Text-to-Dialogue trabaja con objetos JSON estructurados que definen cada contribución a la conversación. El modelo organiza automáticamente el curso de la conversación y garantiza diálogos naturales.
Mejoras técnicas con respecto a la versión anterior
ElevenLabs v3 se basa en una arquitectura completamente rediseñada. En comparación con el modelo anterior v2, la nueva versión ofrece avances significativos en varias áreas.
Mientras que la v2 ya ofrecía buenos resultados con voces individuales, la v3 permite por primera vez diálogos con varios interlocutores. La compatibilidad con etiquetas de audio se ha ampliado desde funciones básicas hasta un sistema completo de control emocional y estilístico.
La compatibilidad lingüística se ha ampliado de 29 idiomas en la v2 a más de 70 en la v3. La nueva capacidad de diálogo, que no estaba disponible en la v2, supone una importante ampliación de la funcionalidad.
Sin embargo, el nuevo modelo requiere más ingeniería de prompts que sus predecesores, pero a cambio ofrece un control mucho mejor sobre el resultado.
Disponibilidad y condiciones
ElevenLabs v3 está disponible de inmediato a través de la plataforma ElevenLabs. Hasta finales de junio de 2025, los usuarios de la interfaz de usuario obtendrán un descuento del 80 % en el uso.
La API pública aún está en desarrollo. Las empresas ya pueden solicitar acceso anticipado a través del departamento de ventas. Para aplicaciones con requisitos en tiempo real, ElevenLabs sigue recomendando los modelos v2.5 Turbo o Flash, ya que v3 se ha optimizado principalmente para aplicaciones orientadas a la calidad .
Una nota importante: los clones de voz profesionales aún no funcionan de manera óptima con la versión 3. ElevenLabs recomienda utilizar clones de voz instantáneos o las voces predefinidas para obtener los mejores resultados con las nuevas funciones.
Importancia para el sector de la síntesis de voz
ElevenLabs v3 supone un importante avance en el desarrollo de la síntesis de voz natural. La posibilidad de controlar de forma específica las emociones, el tono y los elementos no verbales, como la risa o los suspiros, amplía considerablemente las posibilidades de aplicación.
El desarrollo también muestra los rápidos avances en el campo de la IA generativa. La combinación de una expresividad emocional mejorada, una amplia compatibilidad lingüística y funciones de diálogo convierte a la v3 en una herramienta versátil para diversos ámbitos de aplicación.
Conclusión: mejoras significativas en la calidad del lenguaje
ElevenLabs v3 aporta avances notables en la calidad y la naturalidad del lenguaje sintético. Las nuevas etiquetas de audio, la compatibilidad lingüística ampliada y el modo de diálogo amplían considerablemente las posibilidades para aplicaciones profesionales.
Para los usuarios que trabajan con tecnología lingüística, v3 ofrece nuevas posibilidades para crear contenidos de audio expresivos. El acceso reducido durante la fase alfa facilita la prueba y evaluación de las nuevas funciones.
Fuentes
- ElevenLabs. (2024). Presentación de Eleven v3 Alpha. https://elevenlabs.io/de/v3
- Blog de ElevenLabs. (2025). Eleven v3: Lanzamiento del modelo de texto a voz con IA más expresivo. https://elevenlabs.io/blog/eleven-v3
- CIOL. (2025). ElevenLabs lanza v3: el modelo de texto a voz más expresivo hasta la fecha. https://www.ciol.com/generative-ai/elevenlabs-launches-v3-most-expressive-text-to-speech-model-yet-9339467
- Quasa.io. (2025). ElevenLabs presenta Eleven v3 (Alpha): el modelo de conversión de texto a voz más expresivo hasta la fecha. https://quasa.io/media/elevenlabs-unveils-eleven-v3-alpha-the-most-expressive-text-to-speech-model-yet