Die Stimme, die Sie hören – selbst wenn sie Ihnen vertraut vorkommt – könnte eine Täuschung sein, und es gibt möglicherweise keine Möglichkeit, dies zu erkennen. Sprachsynthese ist zwar kein neues Konzept, aber die steigende Verfügbarkeit kostenloser Apps, die diese leistungsstarke Technologie anbieten, ermöglicht es immer mehr Menschen, Stimmen zu klonen. Die Auswirkungen könnten tiefgreifend und unumkehrbar sein.
Eine kürzlich durchgeführte Studie von Consumer Reports, die eine Handvoll solcher Werkzeuge untersuchte, macht die Risiken deutlich. Plattformen wie ElevenLabs, Speechify und Resemble AI nutzen fortschrittliche Modelle zur Sprachsynthese, um Stimmen zu analysieren und zu replizieren, oft mit nur wenigen Schutzmaßnahmen. Einige wie Descript verlangen eine aufgezeichnete Zustimmung, bevor eine Stimme reproduziert wird. Andere sind weniger vorsichtig.
Ich stieß auf eine App namens PlayKit von Play.ht, die es ermöglicht, eine Stimme kostenlos für drei Tage zu klonen, danach kostet es 5,99 USD pro Woche. Diese Gebühr soll theoretisch einen Missbrauch verhindern – doch ich konnte eine Stimme klonen, ohne das Probeabo zu starten.
Sagen Sie ‚Zu einfach‘
Die App führt Sie schnell durch die Einrichtung und bietet vorgefertigte Stimmen, darunter die von Präsident Donald Trump und Elon Musk. Aber es gibt auch die Option, eine eigene Stimme zu klonen.
Ich musste lediglich ein Video aus meiner Fotobibliothek auswählen und hochladen. Die Videos mussten mindestens 30 Sekunden lang sein und in englischer Sprache. Ich hätte ein beliebiges Video auswählen können, z. B. ein Interview mit George Clooney, und es hochladen können.
Das System analysierte das Audio schnell. Ob dies lokal oder in der Cloud geschieht, ist nicht klar, aber es scheint, dass es online geschieht, da solch leistungsstarke Modelle selten lokal auf einem mobilen Gerät ausgeführt werden können. Ich speicherte mein Sprachklon mit meinem Namen, um es später aus der Liste der geklonten Stimmen auszuwählen.
Um meinen Klon etwas in meiner Stimme sagen zu lassen, tippe ich einfach den Text ein und drücke auf ‚Generieren‘. Dieser Vorgang dauert normalerweise 10 bis 15 Sekunden.
Die Stimmen, die PlayKit erzeugt, einschließlich meiner eigenen, sind erschreckend präzise. Einzig der Tonfall und die Emotionen wirken unnatürlich. Mein Klon klingt gleich, ob er über das Abendessen spricht oder einen Autounfall beschreibt. Sogar Ausrufezeichen ändern nichts an der Betonung.
Dennoch könnte diese Technologie Menschen täuschen. Jeder mit Zugriff auf nur 30 Sekunden Videomaterial Ihrer Stimme könnte diese klonen und nach Belieben verwenden. Sicher, sie müssten irgendwann 5,99 USD pro Woche zahlen, aber für einen finanziellen Betrug wäre das vielleicht eine lohnende Investition.
Solche Plattformen, die keine ausdrückliche Genehmigung zum Stimmenklonen verlangen, werden wahrscheinlich weiter verbreitet, und ich fürchte, dass es keine Schutzmaßnahmen oder Vorschriften gibt. Dienste wie Descript, die eine Audio-Zustimmung erfordern, sind die Ausnahme.
Play.ht behauptet, die Stimmrechte der Menschen zu schützen. Hier ein Auszug von ihrer Seite zu ethischer KI:
Unsere Plattform legt Wert auf geistige Eigentumsrechte und persönlichen Besitz. Benutzer dürfen nur ihre eigenen Stimmen oder solche, für die sie explizite Erlaubnis haben, klonen. Diese strikte Politik soll Urheberrechtsverletzungen verhindern und einen hohen Standard an Respekt und Verantwortung aufrechterhalten.
Das ist eine hochgesteckte Versprechung, doch in der Realität nahm ich kurze Clips berühmter Monologe von Benedict Cumberbatch und Al Pacino auf und hatte in weniger als einer Minute gebrauchsfertige Stimmklone beider Schauspieler.
Was hier gebraucht wird, ist eine globale Regulierung der KI, die jedoch Kooperationen auf Regierungsebene erfordert, die derzeit fehlen. 2023 unterzeichnete der damalige Präsident Joe Biden eine Durchführungsverordnung zur KI, die teilweise regulatorische Leitlinien bieten sollte. Die Trump-Administration widerrief diese schnell und hat noch keinen Ersatz vorgeschlagen. Der aktuelle Plan scheint darauf zu beruhen, dass KI-Unternehmen gute digitale Bürger sein und zumindest versuchen, keinen Schaden anzurichten.
Leider gleichen viele dieser Unternehmen Waffenherstellern. Sie schaden nicht direkt – niemand, der einen Stimmenkloner herstellt, ruft Ihren älteren Onkel an und überzeugt ihn mit einem Stimmenklon, Ihnen dringend Tausende von Dollar zu überweisen – aber einige, die ihre KI-Waffen nutzen, tun es.
Für das, was ich als kommende Krise des Stimmenklonens befürchte, gibt es keine einfache Lösung. Ich schlage vor, den Stimmen in Videos, am Telefon oder in Sprachnachrichten nicht mehr blind zu vertrauen. Bei Zweifel kontaktieren Sie die betreffende Person direkt.
Ich hoffe, dass in der Zwischenzeit mehr Plattformen für Sprachsynthese auf eine dokumentierte Zustimmung bestehen, bevor sie den Nutzern erlauben, fremde Stimmen zu klonen.
Wie Sprachsynthese-Technologie die Grenzen der Realität verschwimmen lässt

+ There are no comments
Add yours