ElevenLabs v3: Neue Maßstäbe in der KI-gestützten Sprachsynthese

Juni 13, 2025

ElevenLabs hat mit Eleven v3 (Alpha) sein bisher fortschrittlichstes Text-to-Speech-Modell veröffentlicht. Das neue Modell bringt deutliche Verbesserungen in der Ausdrucksstärke und Natürlichkeit synthetischer Sprache mit sich und erweitert die Möglichkeiten für professionelle Anwendungen erheblich.

Introducing Eleven v3 (alpha) – the most expressive Text to Speech model ever.

Supporting 70+ languages, multi-speaker dialogue, and audio tags such as [excited], [sighs], [laughing], and [whispers].

Now in public alpha and 80% off in June. pic.twitter.com/n56BersdUc
— ElevenLabs (@elevenlabsio) June 5, 2025

Audio-Tags: Präzise Kontrolle über Emotionen und Stil

Das zentrale Feature von ElevenLabs v3 sind die Inline-Audio-Tags. Diese ermöglichen es Nutzern, gezielt emotionale und stilistische Aspekte der generierten Sprache zu steuern .

Die Tags funktionieren als direkte Anweisungen im Text:

[whispers] für leise, vertrauliche Passagen
[laughs] für natürliches Lachen
[angry] für wütende oder intensive Momente
[excited] für begeisterte Ausdrucksweise
[sighs] für nachdenkliche Pausen

Diese Steuerungselemente lassen sich auch kombinieren: [happily][shouts] Wir haben es geschafft! [laughs] . Das Ergebnis sind Sprachausgaben, die deutlich natürlicher und ausdrucksvoller klingen als bisherige Systeme.

Umfassende Sprachunterstützung: 70+ Sprachen verfügbar

ElevenLabs v3 unterstützt über 70 Sprachen und deckt damit einen Großteil der weltweiten Kommunikation ab. Das Spektrum reicht von weit verbreiteten Sprachen wie Deutsch, Englisch und Mandarin-Chinesisch bis hin zu weniger häufigen Sprachen wie Luxemburgisch oder Lingala.

Das Modell berücksichtigt dabei sprachspezifische Eigenarten wie regionale Akzente, kulturelle Betonungsmuster und die charakteristische Sprachmelodie verschiedener Sprachen. Deutsche Texte klingen authentisch deutsch, französische Texte bewahren die typische französische Sprachführung .

Dialogmodus: Natürliche Gespräche zwischen mehreren Sprechern

Eine wichtige Neuerung ist der Text-to-Dialogue-Modus. Nutzer können erstmals realistische Gespräche zwischen verschiedenen Sprechern generieren lassen. Das System beherrscht dabei:

Natürliche Unterbrechungen im Gesprächsfluss
Emotionale Übergänge zwischen verschiedenen Sprechern
Kontextbewusste Reaktionen auf vorherige Äußerungen
Flüssige Sprecherwechsel ohne hörbare Brüche

Die neue Text-to-Dialogue API arbeitet mit strukturierten JSON-Objekten, die jeden Gesprächsbeitrag definieren. Das Modell organisiert automatisch den Gesprächsverlauf und sorgt für natürlich wirkende Dialoge .

Technische Verbesserungen gegenüber dem Vorgänger

ElevenLabs v3 basiert auf einer komplett überarbeiteten Architektur . Im Vergleich zum Vorgängermodell v2 bietet die neue Version deutliche Fortschritte in mehreren Bereichen.

Während v2 bereits gute Ergebnisse bei einzelnen Stimmen erzielte, ermöglicht v3 erstmals echte Mehrsprecherdialoge. Die Unterstützung für Audio-Tags wurde von grundlegenden Funktionen auf ein umfassendes System zur emotionalen und stilistischen Kontrolle ausgebaut.

Die Sprachunterstützung wurde von 29 Sprachen in v2 auf über 70 Sprachen in v3 erweitert. Besonders die neue Dialogfähigkeit war in v2 nicht verfügbar und stellt eine wichtige Erweiterung der Funktionalität dar.

Das neue Modell benötigt allerdings mehr Prompt Engineering als seine Vorgänger, bietet dafür aber deutlich bessere Kontrolle über das Ergebnis .

Verfügbarkeit und Konditionen

ElevenLabs v3 ist sofort verfügbar über die ElevenLabs-Plattform. Bis Ende Juni 2025 erhalten Nutzer der Benutzeroberfläche einen 80% Rabatt auf die Nutzung.

Die öffentliche API ist noch in der Entwicklung. Unternehmen können bereits jetzt frühen Zugang über den Vertrieb anfragen. Für Anwendungen mit Echtzeitanforderungen empfiehlt ElevenLabs weiterhin die Modelle v2.5 Turbo oder Flash, da v3 primär für qualitätsorientierte Anwendungen optimiert wurde .

Ein wichtiger Hinweis: Professional Voice Clones funktionieren derzeit noch nicht optimal mit v3. ElevenLabs empfiehlt stattdessen Instant Voice Clones oder die vordefinierten Stimmen für beste Ergebnisse mit den neuen Features .

Bedeutung für die Sprachsynthese-Branche

ElevenLabs v3 stellt einen wichtigen Fortschritt in der Entwicklung natürlicher Sprachsynthese dar. Die Möglichkeit, Emotionen, Tonfall und non-verbale Elemente wie Lachen oder Seufzen gezielt zu steuern, erweitert die Einsatzmöglichkeiten erheblich.

Die Entwicklung zeigt auch die schnelle Fortschritte im Bereich der generativen KI. Die Kombination aus verbesserter emotionaler Ausdrucksfähigkeit, umfassender Sprachunterstützung und Dialogfunktionen macht v3 zu einem vielseitigen Werkzeug für verschiedene Anwendungsbereiche.

Fazit: Deutliche Verbesserungen in der Sprachqualität

ElevenLabs v3 bringt spürbare Fortschritte in der Qualität und Natürlichkeit synthetischer Sprache. Die neuen Audio-Tags, die erweiterte Sprachunterstützung und der Dialogmodus erweitern die Möglichkeiten für professionelle Anwendungen deutlich.

Für Nutzer, die mit Sprachtechnologie arbeiten, bietet v3 neue Möglichkeiten bei der Erstellung ausdrucksstarker Audioinhalte. Der vergünstigte Zugang während der Alpha-Phase macht es einfach, die neuen Funktionen zu testen und zu bewerten.

Quellen

ElevenLabs. (2024). Einführung von Eleven v3 Alpha. https://elevenlabs.io/de/v3
ElevenLabs Blog. (2025). Eleven v3: Most Expressive AI Text to Speech Model Launched. https://elevenlabs.io/blog/eleven-v3
CIOL. (2025). ElevenLabs Launches v3: Most Expressive Text-to-Speech Model Yet. https://www.ciol.com/generative-ai/elevenlabs-launches-v3-most-expressive-text-to-speech-model-yet-9339467
Quasa.io. (2025). ElevenLabs Unveils Eleven v3 (Alpha): The Most Expressive Text-to-Speech Model Yet. https://quasa.io/media/elevenlabs-unveils-eleven-v3-alpha-the-most-expressive-text-to-speech-model-yet