Sind KI-Stimmen eine Gefahr für den Sprecherberuf?

Spirit328 · 15 November 2024

Aus eigener Erfahrung mit einem kompletten Hörspiel (-chen, weil gerade mal 11 min kurz) kann ich sagen, dass die Sprachsynthese via KI eine echte Herausforderung ist.
So habe ich zwei Tage lang versucht die Sprachsynthese davon zu überzeugen, wenigstens so viel "Menschlichkeit" im Sinne von Betonung und Pausen, hineinzulegen, dass es dem Zweck diente.

Letztlich habe ich das Skript an einigen Stellen drastisch umbauen müssen, weil sich das Original so einfach nicht angehört hat. Das war zum Teil sooooo schlecht betont und ausgesprochen, dass es sinnentstellend und/oder nicht mehr verständlich war.
Nun, es war auch nicht die beste verfügbare Sprachsynthese, sondern "nur" die von Soundly, aber selbst damit war es eine derartige Frickelei, dass ich denke, dass man das mit Menschen, sprich erfahrenen Sprechenden, nicht langsamer umgesetzt hätte.
Für das Skript funktioniert es, dass es gesprochene Texte einer Sprachsynthese sind, aber für eine Geschichte, die menschlichen Ausdruck und Emotionen brauchen würde, ist diese Lösung VÖLLIG ungeeigenet.
Nun gibt es deutlich bessere Sprachsynthese-Tools (vulgo: KI-Tools), die das bestimmt viel besser hinbekommen. Oder wo die derzeitige Leistungsfähigkeit dieser Tools, den Anforderungen so nahe kommt, dass es passend erscheint.
Einzig ein "weiter so wie bisher", wird es wohl nicht mehr geben. Aber an diese Stelle wird etwas anderes treten, ohne dass ich sagen könnte was, wann und wie.

Ich war in den letzten drei Tagen im IBM Museum in Böblingen und habe viele spannende Aufnahmen gemacht. Schon in den frühen 50er Jahren des letzten Jahrtausends hat man vorausgesagt, dass viele Leute arbeitslos werden würden, wenn die Computer kommen. Und selbst als diese immer leistungsfähiger wurden, waren immer zu wenig Leute da, um den Job zu machen, diese Dinger am Laufen zu halten.

Ja! Die Sprachsynthese wird nicht stehen bleiben und immer weiter "vorrücken". Sie wird die Art und Weise, wie heute das Sprecherinnen- und Sprecher-Geschäft heute noch läuft, ziemlich verändern. @Deunan hat das sehr treffend beschrieben.

Vielleicht könnte man einen "Shoot-Out" organisieren, wo ein Hörspiel / Shortie von Menschen und von einer Sprachsynthese Funktionalität gesprochen wird?
Zum einen als Bestandsaufnahme und zum anderen zum besseren Verständnis, wo die menschlichen Sprecherinnen und Sprecher noch immer weit im Vorteil sind.
Wie findet Ihr das?

Spirit328

... auch das noch:

Gegen Enkeltrickbetrug: KI-Omi soll Kriminelle in endlose Gespräche verwickeln (<- klick mich an)

pio

Daisy ist ja der Hammer! Geile Idee!

Strom

Ich habe Google's NotebookLM mal mit dem Link zu meinem Hörspiel GARWINDEL auf dem Hoertalk Youtube Channel 'gefüttert' - und dann dazu eine "Audioübersicht" generieren lassen.
(Info auf NotebookLM dazu: Audioübersichten sind lebhafte, detaillierte Diskussionen, in denen die wichtigsten Themen aus Ihren Quellen zusammengefasst werden)

Das erzeugt eine Audiodatei über den Inhalt der Quelle/n in der sich zwei hosts auf englisch im Ami-Radio-Style unterhalten. Also ich finde, das klingt schon erschreckend lebhaft, unsteril und durchaus emotional. Würde NIEMAND merken, dass das nicht tatsächlich von zwei Menschen im Radio besprochen wurde - war aber nur einen 'click weit entfernt' KI erzeugt

Telliminator

Wow @Strom das klingt wie Kultur-Radio was Google NoebookLM daraus gemacht hat.

Aber es ist englisch... das ist doch was für die K.I. hab ich mir gedacht und tatsächlich was gefunden, das Audio in Audio übersetzen kann. Da ich nicht zahlen wollte hab ich nur den Testmodus versucht und naja, 1 Minute gabs gratis ...

Ja, vermutlich geht da noch mehr mit besseren Stimmen... aber nette Spielerei. Simulatanübersetzung a la Star Trek Lippensynchron auf dem Screen wir kommen. ...

Skeletor26

Bin zwiegespalten bei dem Thema. Für jemanden wie mich, der Hörspiele und Filme nur als Hobby betreibt wird KI einige Träumchen wahrwerden lassen. (z.b. wollte Ich in meinen Masters Hörspielen meine Stimme schon immer wie Skeletor aus den alten VHS Kassetten klingen lassen, und nein keine Sorge, diese KI Version wäre dann nur für mich persönlich, sowas verbreite ich dann nicht), aber für die Sprecher / innen die kommerziell arbeiten und davon leben, ist dieser KI Trend natürlich nicht gut. Wie heißt es leider so richtig...Des einen Freud, des anderen Leid...

Spirit328

Mein lieber Herr-Gesangsverein: Sind KI-Stimmen eine Gefahr für den Sprecherberuf?

Ja, da ist noch an den ein oder anderen Stellen etwas zu machen, auch wenn es schon sehr ähnlich einem Ami Radio klingt. Der Singsang ist schon da, aber die Wechsel sind zu berechenbar, zu schematisch.
Nun, das liegt auch daran, dass im Ami-Radio so etwas so gemacht wird und zugegeben, das ist schon sehr, sehr nah dran.
Aber der ganze Ausdruck ist eher flach. Auch im Amerikanischen arbeiten sie mit Tonfällen, Betonungen usw. Nicht so ausgeprägt wie im Deutschen (Ich erinnere an 20 "Stories" mit "Liebe Julia"), aber ... ja ... da ist schon viel Ähnlichkeit.

Für mich ist es "nur" die Frage von ein, zwei Jahren und dann sind diese Sprachsynthesen so gut, dass es für Ungeübte nahezu unmöglich sein wird das zu unterscheiden und selbst Hör-Erfahrene werden Schwierigkeiten haben.
Das ist für mich in etwa vergleichbar mit "purer" Musik und MP3.

Es wird wirklich Zeit, dass wir (also die Gesellschaften) uns dem Thema stellen und vereinbaren, wie wir damit umgehen.
Eine Erweiterung der journalistischen Standards und Regeln, die solche Sprachsynthesen ächten und verbieten, vielleicht? Oder lassen wir uns einfach das Heft nicht aus der Hand nehmen und fordern eine generelle Ächtung von Sprachsynthese mit oder zumindest mit Unterstützung von KI?
Bei mir fährt das Kopfkino Achterbahn, wenn ich mir vorstelle, was alles machbar ist und welche Gefahr das bedeuten kann (nicht muss), wenn im Radio (FM und/oder Internet) "nur" noch KI-Stimmen die Informationen vortragen.

Doch bin ich sehr gespannt, wann derartige Sprachsynthesen es schaffen Süffisanz, Ironie, Sarkasmus, Spott, Hohn, Witz und feine Doppeldeutigkeiten mittels Stimmgestaltung hinbekommen.

Ich verstehe, dass das Thema KI faszinierend ist. Kernenergie finde ich als Thema auch sehr faszinierend, aber in der Realität halte ich einen mehr als respektvollen Abstand dazu.

WolfsOhr

Vor allem, weil man heutzutage schon gar nicht mehr weiß, was echt und was Fake ist. Man kann einfach nichts mehr glauben und muss zwangsläufig jedes Video, das man sieht und hört, hinterfragen und recherchieren. Das ist das Tragische und damit tun wir uns keinen Gefallen.

MonacoSteve

Strom schrieb:
Ich habe Google's NotebookLM mal mit dem Link zu meinem Hörspiel GARWINDEL auf dem Hoertalk Youtube Channel 'gefüttert' - und dann dazu eine "Audioübersicht" generieren lassen.
(Info auf NotebookLM dazu: Audioübersichten sind lebhafte, detaillierte Diskussionen, in denen die wichtigsten Themen aus Ihren Quellen zusammengefasst werden)

Also DAS hat mich jetzt komplett umgehauen!! Na gut, als Rentner lebt man wahrscheinlich bezüglich so mancher Entwicklung irgendwann hinter dem Mond. Aber so weit dahinter??

Und jetzt nicht falsch verstehen - dass zwei diskutierende KI-Stimmen sich ziemlich menschlich anhören können (wie menschlich auf Amerikanisch wirklich könnten hier wahrscheinlich nur Muttersprachler erschöpfend beurteilen) ist gar nicht mein Punkt - in der Hinsicht haben wir inzwischen schon viel Erstaunliches gehört und erlebt.

Viel mehr erschüttert mich in meiner Restnaivität, dass eine KI es tatsächlich schafft, ein ihr zuvor völlig unbekanntes, neues und sogar ziemlich komplexes literarisches Produkt (hier sogar "nur" gesprochen) nicht nur inhaltlich korrekt durchzuanalysieren, sondern eine Zusammenfassung (hier auch wieder gesprochen als eine Art Podcast) wiederzugeben, welche die Essenz enthält, den Sinn erkennt und sogar Form und Ausführung interpretiert. Wofür zur Hölle brauchen wir und unsere Kinder eigentlich wirklich noch unser eigenes Hirn, wenn solche immer schon extrem anspruchsvollen mentalen Leistungen jetzt auf Kopfdruck aus der Kiste springen?

Langsam wird mir immer klarer, warum die Menschheit in der Masse unaufhaltsam verdummt - wie das aktuelle Weltgeschehen leider nur allzu deutlich zeigt.

Uff, sorry Leute, das musste jetzt raus!

WolfsOhr

Ich habe passend dazu gestern ein sehr schönes Zitat einer Autorin gelesen, dass ich hier rezitiere:
"Der Verlust der natürlichen Intelligenz beunruhigt mich mehr als das Aufkommen der künstlichen Intelligenz"

Spirit328

... und schon Albert Einstein wusste, dass es zwei Dinge gibt, die unendlich sind: Die Dummheit der Menschheit und das Universum. Beim Universum war es sich da nicht so sicher.

Und wenn man es streng nach den Buchstaben nimmt, ist das, was wir KI nennen nicht einmal im Ansatz so etwas wie Intelligenz. Es sind neuronale Netzwerke, die sich an Wahrscheinlichkeiten entlang hangeln. Das ist KEINE Intelligenz, sondern maximal Stochastik.

Unabhängig davon, stimme ich der Autorin, die @WolfsOhr zitierte, uneingeschränkt zu.
Es ist ja schon heute so, dass unsere Demnächst-Rentenzahler immer weniger in die Lage versetzt werden Probleme als solche zu erkennen und zu beschreiben, ganz zu schweigen davon, dass sie keine Strategien gelernt haben sie zu lösen!
Wer immer nur Hr. Google oder Siri oder ... wie auch immer etwaige neuronale Netzwerke genannt werden, um Rat fragt, der verstößt elementar gegen das "Sesamstraßen-Prinzip": "Wer, wie, was - wieso, weshalb, warum? - Wer nicht fragt bleibt dumm!"

Beispiel gefällig?
Eine Forschergruppe aus Melbourne hat vor einigen Jahren folgende Untersuchung durchgeführt:
30 Studierende wurden von einer (fiktiven) Outdoor-Produkte Firma als "Tester" gesucht.
Sie sollten die neue Produkt-Kollektion testen und zwar 10 Tage und Nächte im Outback in Australien.
Sie würden am Ende die Produkte behalten dürfen, wenn sie wollen und sie bekommen auch jede/r 2.000 AU$, wenn sie die 10 Tage durchhalten.
Einzig für ihre Verpflegung müssten sie für diese 10 Tage selber sorgen, damit jeder das isst, was sie/er verträgt.
Es meldeten sich mehrere Hundert Interessenten, von den per Los die 30 Tester ausgewählt wurden.

Es gab einen "Einweisungstag" für die neuen Produkte in der (fiktiven) Niederlassung in Melbourne, an dem alle 30 Tester noch einmal nachdrücklich darauf hingewiesen wurden, dass sie selber für ihre Verpflegung zu sorgen hätten und alle haben das ohne Zögern unterschrieben, dass sie diesbezüglich belehrt wurden.

Drei Tage später ging es los und man hat sie ins Outback gefahren und ihnen viel Erfolg und eine gute Zeit gewünscht!
Zur Sicherheit haben einige erfahrene Ranger das Treiben aus größerer Entfernung beobachtet und auch die Forscher hatten an vielen Stellen versteckte Kameras postiert.

Am zweiten Tag waren alle (!) Vorräte, wenn man das so nennen mag, aufgebraucht.
Was ist es im Outback im Sommer? - Richtig! Heiß und sehr, sehr trocken.
Nun haben die Blitzmerker ihre Handies gezügt und bei Amazon eine Menge Dinge bestellen wollen ... aber ... im Outback gibt es keinen Empfang von 5G, LTE, 3G, 2G ... nichts. Nur Wüste, Trockenheit, Hitze und ein paar krabbelnde Insekten.
Am Abend liefen einige los in die Richtung in die sie die letzte größere menschliche Ansiedlung vermuteten (die aber genau in der entgegengesetzten Richtung lag), um Handy Empfang zu bekommen. Die im Lager verbleibenden Student*innen versuchten sich in Survival Techniken ... na ja!
Am vierten Tag am frühen Morgen sind die Ranger erschienen, haben Wasser und Nahrung gebracht, die Studierenden eingesammelt und das Experiment abgebrochen. Die vier "Ausreißer" hatten sie schon in der Nacht aus ihrer mehr als misslichen Lage befreit. Sie waren sehr stark dehydriert.

Lauschecke

Nun ja...ich finde den Vergleich mit diesem Experiment an sich schon seeehr vage, aber der Botschaft dahinter stimme ich durchaus zu: Der Mensch verlässt sich zu sehr auf die Technik. Das könnte natürlich dazu führen, dass er einmal verlassen wird - aber langsam driften wir hier in eine interessant philosphische Richtung ab

Ich finde es sehr spannend, all diese Ansichten, Meinungen & dergleichen zu sammeln. Egal ob Wissen, weihnachtlicher Spekulatius oder wie auch immer. Der Mittelwert daraus ergibt sich wohl in Richtung: Dem Einen nützt´s was, dem anderen schadets.

pio

vor allem der Grund für das Ergebnis. dieser Studie ist sehr interessant:Studie: Warum KI-Lyrik als besser empfunden wird

MonacoSteve

pio schrieb:
... dieser Studie ist sehr interessant:Studie: Warum KI-Lyrik als besser empfunden wird

Das überrascht mich, denn zumindest kunstvoll und korrekt reimen konnte ChatGPT bis vor kurzen überhaupt nicht. Kann sein, dass sich das inzwischen auch geändert hat natürlich. Aber Lyrik ohne Rhythmus und Reim ist formal viel einfacher zu generieren - und Inhalt kann man bekanntlich selbst da noch hineininterpretieren, wo es keinen gibt. (OK das Letzte war jetzt böse.)

Noir

Doch doch ... das kann ChatGPT ganz gut inzwischen. Es kriegt sogar Liedtexte hin, die sehr gut funktionieren.

Telliminator · 18 November 2024

Es muss mittlerweile aber auch nicht immer nur ChatGPT sein, die K.I. von Google, Gemini, ehemals Bart, Aria Opera, Copilot von Microsoft, Firefox Orbit setzen alle nach und helfen einem Texte zu erstellen.

Danach ist es nur noch ein kurzes Stück um Audio daraus mittels Text2Speech zu generieren. Hier hat man die Qual der Wahl von mies bis schlechte Stimme bis hin zu klingt nahezu menschlich oder man greift zu den neuen Sprach K.I. Generatoren, die Texte fast schon realistisch wiedergeben können und auf einem ganz anderen Level agieren., als nur einfache Text2Speech Sprach-Synthese.

Na, mal einen Blick auf das werfen, was K.I. Sprachgeneratoren können?
Seid bitte nicht geschockt, diese Seite beleuchtet 5 der bisher Besten K.I. Systeme für Sprache:

Die 5 besten KI-Sprachgeneratoren 2025: Text-to-Speech wie ein Pro!

Top KI-Sprachgeneratoren 2025! Text zu Audio, perfekter Sound, Voice Cloning. Top 5 im Check! -> Jetzt Text-to-Speech Tools entdecken

kopfundstift.de

Und da sich vielleicht doch einige noch nicht ganz schocken lassen. Hier das künstliche Radio,
Absolut Radio AI. Ein Radiosender, der komplett von einer K.I. gesteuert und moderiert wird.

Absolut Radio AI

Der erste Stream, der von einer AI / KI moderiert wird, ist da. Der Absolut Radio AI Stream. Das ist eine deutschlandweite Premiere und hat es so noch nicht gegeben. Der neue Stream von Absolut Radio KI Stream ; AI Stream ; Absolut Radio Stream ; Absolut Stream ;

absolutradio.de

Nanami

(Das bezieht sich hier NUR auf KI in der Kunst, nicht aber Medizin usw!!)

KI ist Leichenschändung. Man erfreut sich an etwas Totem, was künstlich "zum Leben" erweckt wurde, top. Nein, zumindest in der Kunst hat das nichts verloren. Da muss mir auch keiner zeigen, was es alles für tolle Möglichkeiten gäbe, ich ignoriere das einfach wie diese drei Affen

. Dabei kann ich das durchaus differenziert betrachten, denn ich würde theoretisch keinem Autoren einen Vorwurf machen, der ein Cover per KI generiert, keinem Coverdesigner, der sich schnell einen Minitext für seinen Buchrücken organisieren lässt, ich verstehe es sogar, wenn man keine 5000 Euro und mehr als Autor für einen Hörbuchsprecher ausgeben kann und das irgendwie KI-mäßig ersetzt. Das kann ich alles sogar nachvollziehen. Ja, ist es menschlich, wenn man sich künstlicher Intelligenz bedient.

Von der Seite der Ehre und des Stolzes sehe ich das so, dass man wenigstens die eigene Kernkompetenz, die eigene Kunst, KI-frei halten sollte.
Aber immer öfter höre ich z.B. von "Plotten mit KI". Wenn du Autor bist und dir eine KI beim Plotten hilft, bist du kein Autor. Dann bist du nur ein Trottel mit einer KI.
Und irgendwann ist der Strom weg. Und dann? Was bist du dann?

Und wenn ich meinen eigenen geradezu nervig-furiosen Text jetzt so lese, kann ich mir durchaus vorstellen, dass das Leben so viel leichter ist, wenn man sich ein solches Herumgezicke wie z.B. meines vom Leibe halten will und lieber eine KI nimmt

MonacoSteve

Nanami schrieb:
Von der Seite der Ehre und des Stolzes sehe ich das so, dass man wenigstens die eigene Kernkompetenz, die eigene Kunst, KI-frei halten sollte.

Jawohl. Genau deshalb schaut der Kopf meiner YT-Seite so aus...

Nanami schrieb:
Wenn du Autor bist und dir eine KI beim Plotten hilft, bist du kein Autor. Dann bist du nur ein Trottel mit einer KI.

Unterschreibe ich auch, vorsichtshalber mit Bleistift....

Nanami schrieb:
Und irgendwann ist der Strom weg. Und dann? Was bist du dann?

Das mit den Strom ist freilich so 'ne Sache. Da mache ich mir ganz andere Sorgen. Wenn der weg ist, dann sind wir alle ziemlich am A.... Nicht nur als KI-nutzende Autoren und Komponisten. Sondern auch als Wärme und Nahrung benötigende Modern-Menschen, die keine mehr Ahnung haben, wie ein Neandertaler auch nur ein, zwei Wochen auf diesem Planeten überleben konnte.

Und generell würde ich @Nanami 's wunderbar furiosem Text nach meinem Herzen allerdings noch hinzufügen: KI-Freiheit muss man sich heutzutage auch leisten können. Da tun sich Hobby-Künstler wahrscheinlich leichter als die, die gezwungen sind, sich in einer Befindlichkeiten ignorierenden Konkurrenz ihre Brötchen zu verdienen,

soundjob

Tja, wenn der Strom weg wäre... dann müsste mit Generationshinblick ein nicht unerheblicher Anteil von Menschen wieder selber das Denken übernehmen.

Strom

Nanami schrieb:
Und irgendwann ist der Strom weg. Und dann? Was bist du dann?

Ihr redet hier aber nicht von mir, oder?

Sind KI-Stimmen eine Gefahr für den Sprecherberuf?

Aff un zo jeht et uns jar nit schlääsch!

Aff un zo jeht et uns jar nit schlääsch!

Gegen Enkeltrickbetrug: KI-Omi soll Kriminelle in endlose Gespräche verwickeln (<- klick mich an)​

Autor, Audio Engineer (BA), Sprecher und Musiker

SCHREIBEN • SINGEN • SPRECHEN

Sample-Collector

Overlord of Lüneburg

Aff un zo jeht et uns jar nit schlääsch!

Mario Wolf

... nicht ganz Dichter

Mario Wolf

Aff un zo jeht et uns jar nit schlääsch!

Lauschecke

Autor, Audio Engineer (BA), Sprecher und Musiker

... nicht ganz Dichter

chronisch mies gelaunt

Sample-Collector

Es sind heute viele Leute in Versailles

... nicht ganz Dichter

Mucketier, Tontüte & Hörspielfrisör

SCHREIBEN • SINGEN • SPRECHEN

About Us

Links

Social Media

Statistik des Forums

Gegen Enkeltrickbetrug: KI-Omi soll Kriminelle in endlose Gespräche verwickeln (<- klick mich an)