Sie produzieren einen Podcast, eine Werbekampagne oder einen Audioguide. Die Stimme klingt vertraut, professionell, perfekt zur Marke passend. Nur: Die Person, deren Klang Sie hören, hat nie ein Mikrofon in dieses Studio gehalten. Voice-Cloning macht genau das möglich. Und es stellt Produktionsverträge vor Fragen, auf die die meisten Standardklauseln noch keine Antwort haben.
Die Technologie ist längst kein Experiment mehr. Sprachmodelle klonen Stimmen aus wenigen Minuten Audiomaterial. Für Producer:innen, Agenturen und Medienhäuser entsteht daraus ein rechtliches Niemandsland: Wer darf eine Stimme klonen? Wer besitzt das Ergebnis? Und was passiert, wenn das Trainings-Dataset Aufnahmen enthält, für die niemand eine Lizenz eingeholt hat? Dieser Artikel ordnet die wichtigsten Dimensionen ein und zeigt, wo Vertragswerk heute nachgebessert werden muss.
Die Stimme als Persönlichkeitsrecht: Was das deutsche Recht schützt
Das deutsche Recht kennt kein explizites „Recht am Klang“ als kodifizierten Tatbestand. Was es kennt, ist das allgemeine Persönlichkeitsrecht nach Art. 2 Abs. 1 in Verbindung mit Art. 1 Abs. 1 GG. Aus diesem Recht haben Gerichte in den vergangenen Jahrzehnten einen Schutz der Stimme als persönlichkeitstypisches Merkmal abgeleitet.
Die Stimme ist identifizierbar, unverwechselbar, Teil der Person. Wer sie ohne Einwilligung kommerziell nutzt, greift in das Persönlichkeitsrecht ein. Das gilt für Tonaufnahmen, aber auch für synthetische Reproduktionen, die eine reale Stimme imitieren. Ob ein KI-generierter Sprachklon juristisch als „Aufnahme“ zählt oder als eigenständige Schöpfung, ist noch nicht höchstrichterlich entschieden. Die Tendenz in der deutschen Rechtsliteratur geht dahin, dass die Ähnlichkeit entscheidend ist: Wenn eine geklonte Stimme eine reale Person erkennbar nachbildet, greift der Persönlichkeitsschutz.
Für Produktionsteams bedeutet das: Eine Einwilligung zur Aufnahme ist keine Einwilligung zum Klonen. Wer Sprecher:innen für Audioformate bucht, braucht künftig eine explizite Klausel, die regelt, ob und unter welchen Bedingungen die Stimme für Trainingsdaten oder synthetische Reproduktion verwendet werden darf.
Dataset-Provenance: Die unsichtbare Haftungsfrage
Hinter jedem Voice-Cloning-Tool steckt ein Trainings-Dataset. Und genau hier liegt das Problem, das viele Produktionsverantwortliche noch unterschätzen: Woher stammen die Audiodaten, mit denen ein Modell trainiert wurde?
Mehrere bekannte Fälle aus den USA zeigen das Muster. Sprecher:innen und Musiker:innen haben entdeckt, dass ihre öffentlich zugänglichen Aufnahmen aus Podcasts, Hörbüchern und YouTube-Videos ohne Lizenz in Trainingsdatensätze eingeflossen sind. Am 24. Juni 2024 reichten Universal Music Group, Sony Music und Warner Records über die RIAA Klagen gegen die KI-Musikdienste Suno und Udio wegen angeblicher massenhafter Urheberrechtsverletzungen ein. (Recording Industry Association of America) In der EU verschärft die KI-Verordnung (AI Act), die seit August 2024 schrittweise in Kraft tritt, die Anforderungen an Transparenz und Dokumentation von Trainingsdaten für Hochrisiko-Systeme und Foundation Models erheblich.
Für Agenturen und Medienhäuser, die kommerzielle Voice-Cloning-Dienste einsetzen, entsteht daraus eine Due-Diligence-Pflicht. Wer ein Tool einsetzt, ohne dessen Datenbasis zu prüfen, riskiert Mitverantwortung, wenn sich herausstellt, dass das Modell auf unrechtmäßig genutzten Aufnahmen beruht. Die Frage „Kann ich nachweisen, woher die Trainingsdaten kommen?“ wird zur Vertragsklausel: Anbieter von Voice-Cloning-Diensten sollten künftig Warranties zur Dataset-Provenance abgeben, ähnlich wie Software-Anbieter heute Aussagen zur Open-Source-Lizenz-Compliance machen.
Wo Standardverträge heute versagen
Ein klassischer Sprechervertrag regelt Honorar, Nutzungsrechte nach Medium und Territorium sowie eine Exklusivitätsfrist. Was er typischerweise nicht regelt: synthetische Reproduktion, Klonierung der Stimme für zukünftige Produktionen, Nutzung als Trainingsdatum, KI-gestützte Weiterverarbeitung.
Das ist kein Versehen. Diese Klauseln fehlten schlicht, weil die Technologie nicht existierte. Heute existiert sie. Das Schweigen im Vertrag wird zur Falle, in beide Richtungen. Producer:innen, die glauben, eine breite Nutzungsrechtsklausel decke auch Voice-Cloning ab, stehen vor Gericht möglicherweise auf verlorenem Posten. Sprecher:innen, die glauben, ihr Klang sei automatisch geschützt, merken zu spät, dass sie keine explizite Verbotsklausel vereinbart haben.
Was Verträge heute mindestens regeln sollten:
Klonierungsverbot oder -erlaubnis: Explizite Aussage, ob die Stimme für synthetische Reproduktion genutzt werden darf, und wenn ja, unter welchen Bedingungen (Einzel-Projekt, zeitlich befristet, mit Vergütung).
Trainingsdaten-Ausschluss: Klausel, die untersagt, Aufnahmen aus dem Projekt als Trainings-Input für KI-Modelle zu verwenden, sofern keine gesonderte Vereinbarung besteht.
Transparenzpflicht bei KI-Einsatz: Verpflichtung des Auftraggebers, offenzulegen, wenn KI-Werkzeuge bei der Stimmverarbeitung eingesetzt werden.
Vergütungsmodell für synthetische Nutzung: Wenn Klonierung vereinbart wird, braucht es ein eigenes Lizenzmodell, keine pauschale Abgeltung über das Aufnahmestudio-Honorar.
Löschpflichten und Datenkontrolle: Wer hat nach Projektende Zugriff auf die Rohdaten? Wann werden sie gelöscht?
Diese Punkte sind kein Luxus für Großproduktionen. Sie sind Standard-Hygiene für jede Agentur, die heute Sprachproduktionen in Auftrag gibt.
Der EU AI Act als neuer Rahmen für Produktionspraktiken
Der AI Act bringt Bewegung in eine Debatte, die bisher vor allem von Einzelfällen und nationaler Rechtsprechung geprägt war. Für Voice-Cloning relevant sind vor allem zwei Bereiche: die Kennzeichnungspflicht für KI-generierte Inhalte und die Anforderungen an Anbieter von Foundation Models.
Artikel 50 des AI Act verpflichtet Anbieter von KI-Systemen, die synthetische Audio-Inhalte erzeugen, zur Kennzeichnung. Das betrifft auch Voice-Cloning-Outputs. Wer eine geklonte Stimme in einer Werbekampagne oder einem Medienformat einsetzt, muss künftig kenntlich machen, dass es sich um KI-generierten Klang handelt. Die genaue Ausgestaltung dieser Pflicht konkretisiert sich noch durch nachgelagerte Regelwerke, aber die Richtung ist klar.
Für Produktionsverträge heißt das: Kennzeichnungspflichten werden zur Vertragsobliegenheit. Auftraggeber müssen sicherstellen, dass ihre Auftragnehmer diese Pflichten kennen und einhalten. Wer das nicht vertraglich absichert, trägt das Haftungsrisiko selbst. (EUR-Lex)
Neue Vergütungsmodelle: Was die Branche lernen kann
Die Musikindustrie hat eine Blaupause geliefert, wenn auch eine schmerzhafte. Als Streaming die Vergütungslogik auf den Kopf stellte, dauerte es Jahre, bis Lizenzmodelle entstanden, die Urheber:innen fair abbildeten. Voice-Cloning steht an einem ähnlichen Punkt, nur mit kürzerem Zeitfenster.
Einige Sprecher-Agenturen und Gewerkschaften, vor allem in den USA, entwickeln gerade Modelle, die synthetische Nutzung als eigene Lizenzebene behandeln. SAG-AFTRA sicherte in den TV/Theatrical-Verträgen von 2023 und den TV-Animation-Verträgen von 2024 Mitteilung, Einwilligung, Vergütungspflichten und Verhandlungsrechte bei der Erstellung und Nutzung synthetischer Stimmen und digitaler Replikate. (SAG-AFTRA) Das Prinzip dahinter: Eine Stimme zu klonen ist nicht dasselbe wie sie einmal aufzunehmen. Es ist ein dauerhaftes Asset, das immer wieder eingesetzt werden kann. Das muss sich in der Vergütung spiegeln.
Für den deutschsprachigen Raum fehlen vergleichbare Tarifstrukturen noch weitgehend. Einzelne Agenturen regeln es vertraglich. Eine Branchenlösung ist nicht in Sicht. Das ist eine Lücke, die Content-Professionals kennen sollten, auch wenn sie auf Auftraggeberseite sitzen. Wer faire Konditionen anbietet, baut langfristig bessere Beziehungen zu Sprecher:innen auf als wer auf das Schweigen im Vertrag setzt.
Was jetzt zu tun ist: Praktische Schritte für Producer:innen
Voice-Cloning ist kein Zukunftsproblem. Es ist ein Problem der nächsten Produktion. Wer heute Sprachaufnahmen beauftragt oder selbst produziert, sollte drei Dinge konkret angehen:
Bestehende Vertragsvorlagen prüfen. Enthalten sie explizite Aussagen zu synthetischer Reproduktion? Wenn nicht, ist Nachbesserung fällig, bevor das nächste Projekt startet.
Anbieter von Voice-Cloning-Tools befragen. Welche Trainingsdaten wurden genutzt? Gibt es eine Dataset-Dokumentation? Sind Warranties zur Rechtmäßigkeit der Datenbasis verfügbar? Wer keine Antwort bekommt, sollte das als Signal werten.
Kennzeichnungspflichten einplanen. Auch wenn der AI Act noch nicht vollständig greift: Wer jetzt Prozesse aufbaut, die KI-generierte Stimmen transparent ausweisen, ist vorbereitet, wenn die Pflicht scharf wird.
Das Recht am Klang ist kein abstraktes Thema für Medienrechtskanzleien. Es ist eine Produktionsfrage, die sich in Vertragsklauseln, Tool-Auswahl und Vergütungsmodellen niederschlägt. Die Technologie hat einen neuen Abschnitt eröffnet. Die Verträge müssen nachziehen.
Quellen
Kennzeichnungspflichten für synthetische Audio-Inhalte nach Art. 50 AI Act — EUR-Lex
Tarifvertragliche Regelung synthetischer Stimmnutzung in den USA — Los Angeles Times, 13. November 2023