ElevenLabs a publié Eleven v3 (Alpha), son modèle de synthèse vocale le plus avancé à ce jour. Ce nouveau modèle apporte des améliorations significatives en termes d’expressivité et de naturel du langage synthétique et élargit considérablement les possibilités d’applications professionnelles.
Introducing Eleven v3 (alpha) – the most expressive Text to Speech model ever.
— ElevenLabs (@elevenlabsio) June 5, 2025
Supporting 70+ languages, multi-speaker dialogue, and audio tags such as [excited], [sighs], [laughing], and [whispers].
Now in public alpha and 80% off in June. pic.twitter.com/n56BersdUc
Balises audio : contrôle précis des émotions et du style
La fonctionnalité centrale d’ElevenLabs v3 est constituée des balises audio en ligne. Elles permettent aux utilisateurs de contrôler de manière ciblée les aspects émotionnels et stylistiques de la parole générée.
Les balises fonctionnent comme des instructions directes dans le texte :
- [whispers] pour les passages doux et confidentiels
- [laughs] pour un rire naturel
- [angry] pour les moments de colère ou d’intensité
- [excited] pour un langage enthousiaste
- [sighs] pour les pauses réfléchies
Ces éléments de contrôle peuvent également être combinés : [happily][shouts] Nous avons réussi ! [laughs]
. Il en résulte des synthèses vocales qui semblent beaucoup plus naturelles et expressives que les systèmes précédents.
Prise en charge linguistique complète : plus de 70 langues disponibles
ElevenLabs v3 prend en charge plus de 70 langues et couvre ainsi une grande partie de la communication mondiale. La gamme s’étend des langues courantes telles que l’allemand, l’anglais et le mandarin à des langues moins courantes telles que le luxembourgeois ou le lingala.
Le modèle tient compte des particularités linguistiques telles que les accents régionaux, les schémas d’accentuation culturels et la mélodie caractéristique des différentes langues. Les textes allemands sonnent authentiquement allemand, les textes français conservent la prononciation typique de la langue française.
Mode dialogue : conversations naturelles entre plusieurs locuteurs
Le mode texte-dialogue constitue une innovation importante. Pour la première fois, les utilisateurs peuvent générer des conversations réalistes entre différents locuteurs. Le système maîtrise les éléments suivants :
- Interruptions naturelles dans le flux de la conversation
- Transitions émotionnelles entre différents locuteurs
- Réactions contextuelles aux déclarations précédentes
- Changements fluides de locuteur sans coupures audibles
La nouvelle API Text-to-Dialogue fonctionne avec des objets JSON structurés qui définissent chaque contribution à la conversation. Le modèle organise automatiquement le déroulement de la conversation et garantit des dialogues naturels .
Améliorations techniques par rapport à la version précédente
ElevenLabs v3 repose sur une architecture entièrement repensée . Par rapport à la version précédente v2, la nouvelle version offre des progrès significatifs dans plusieurs domaines.
Alors que la v2 obtenait déjà de bons résultats avec des voix individuelles, la v3 permet pour la première fois de véritables dialogues à plusieurs locuteurs. La prise en charge des balises audio a été étendue, passant de fonctions de base à un système complet de contrôle émotionnel et stylistique.
La prise en charge linguistique a été étendue de 29 langues dans la v2 à plus de 70 langues dans la v3. La nouvelle capacité de dialogue, qui n’était pas disponible dans la v2, constitue une extension importante des fonctionnalités.
Le nouveau modèle nécessite toutefois davantage de prompt engineering que ses prédécesseurs, mais offre en contrepartie un contrôle nettement meilleur du résultat .
Disponibilité et conditions
ElevenLabs v3 est disponible immédiatement via la plateforme ElevenLabs. Jusqu’à fin juin 2025, les utilisateurs de l’interface utilisateur bénéficient d’une réduction de 80 % sur l’utilisation.
L’API publique est encore en cours de développement. Les entreprises peuvent d’ores et déjà demander un accès anticipé via le service commercial. Pour les applications avec des exigences en temps réel, ElevenLabs continue de recommander les modèles v2.5 Turbo ou Flash, car la v3 a été optimisée principalement pour les applications axées sur la qualité .
Remarque importante : les clones vocaux professionnels ne fonctionnent pas encore de manière optimale avec la version v3. ElevenLabs recommande plutôt d’utiliser les clones vocaux instantanés ou les voix prédéfinies pour obtenir les meilleurs résultats avec les nouvelles fonctionnalités .
Implications pour le secteur de la synthèse vocale
ElevenLabs v3 représente une avancée importante dans le développement de la synthèse vocale naturelle. La possibilité de contrôler de manière ciblée les émotions, l’intonation et les éléments non verbaux tels que le rire ou les soupirs élargit considérablement les possibilités d’application.
Cette évolution témoigne également des progrès rapides réalisés dans le domaine de l’IA générative. La combinaison d’une expressivité émotionnelle améliorée, d’une prise en charge linguistique complète et de fonctions de dialogue fait de la v3 un outil polyvalent pour divers domaines d’application.
Conclusion : des améliorations significatives de la qualité vocale
ElevenLabs v3 apporte des progrès notables en termes de qualité et de naturel de la parole synthétique. Les nouvelles balises audio, l’assistance linguistique étendue et le mode dialogue élargissent considérablement les possibilités d’applications professionnelles.
Pour les utilisateurs qui travaillent avec les technologies linguistiques, la version v3 offre de nouvelles possibilités pour créer des contenus audio expressifs. L’accès à prix réduit pendant la phase alpha permet de tester et d’évaluer facilement les nouvelles fonctionnalités.
Sources
- ElevenLabs. (2024). Lancement d’Eleven v3 Alpha. https://elevenlabs.io/de/v3
- Blog ElevenLabs. (2025). Eleven v3 : lancement du modèle de synthèse vocale par IA le plus expressif. https://elevenlabs.io/blog/eleven-v3
- CIOL. (2025). ElevenLabs lance la v3 : le modèle de synthèse vocale le plus expressif à ce jour. https://www.ciol.com/generative-ai/elevenlabs-launches-v3-most-expressive-text-to-speech-model-yet-9339467
- Quasa.io. (2025). ElevenLabs dévoile Eleven v3 (Alpha) : le modèle de synthèse vocale le plus expressif à ce jour. https://quasa.io/media/elevenlabs-unveils-eleven-v3-alpha-the-most-expressive-text-to-speech-model-yet