Spirit328

Power Off! - Zumindest für eine gewisse Zeit
Teammitglied
Aus eigener Erfahrung mit einem kompletten Hörspiel (-chen, weil gerade mal 11 min kurz) kann ich sagen, dass die Sprachsynthese via KI eine echte Herausforderung ist.
So habe ich zwei Tage lang versucht die Sprachsynthese davon zu überzeugen, wenigstens so viel "Menschlichkeit" im Sinne von Betonung und Pausen, hineinzulegen, dass es dem Zweck diente.

Letztlich habe ich das Skript an einigen Stellen drastisch umbauen müssen, weil sich das Original so einfach nicht angehört hat. Das war zum Teil sooooo schlecht betont und ausgesprochen, dass es sinnentstellend und/oder nicht mehr verständlich war.
Nun, es war auch nicht die beste verfügbare Sprachsynthese, sondern "nur" die von Soundly, aber selbst damit war es eine derartige Frickelei, dass ich denke, dass man das mit Menschen, sprich erfahrenen Sprechenden, nicht langsamer umgesetzt hätte.
Für das Skript funktioniert es, dass es gesprochene Texte einer Sprachsynthese sind, aber für eine Geschichte, die menschlichen Ausdruck und Emotionen brauchen würde, ist diese Lösung VÖLLIG ungeeigenet.
Nun gibt es deutlich bessere Sprachsynthese-Tools (vulgo: KI-Tools), die das bestimmt viel besser hinbekommen. Oder wo die derzeitige Leistungsfähigkeit dieser Tools, den Anforderungen so nahe kommt, dass es passend erscheint.
Einzig ein "weiter so wie bisher", wird es wohl nicht mehr geben. Aber an diese Stelle wird etwas anderes treten, ohne dass ich sagen könnte was, wann und wie.

Ich war in den letzten drei Tagen im IBM Museum in Böblingen und habe viele spannende Aufnahmen gemacht. Schon in den frühen 50er Jahren des letzten Jahrtausends hat man vorausgesagt, dass viele Leute arbeitslos werden würden, wenn die Computer kommen. Und selbst als diese immer leistungsfähiger wurden, waren immer zu wenig Leute da, um den Job zu machen, diese Dinger am Laufen zu halten.

Ja! Die Sprachsynthese wird nicht stehen bleiben und immer weiter "vorrücken". Sie wird die Art und Weise, wie heute das Sprecherinnen- und Sprecher-Geschäft heute noch läuft, ziemlich verändern. @Deunan hat das sehr treffend beschrieben.

Vielleicht könnte man einen "Shoot-Out" organisieren, wo ein Hörspiel / Shortie von Menschen und von einer Sprachsynthese Funktionalität gesprochen wird?
Zum einen als Bestandsaufnahme und zum anderen zum besseren Verständnis, wo die menschlichen Sprecherinnen und Sprecher noch immer weit im Vorteil sind.
Wie findet Ihr das?
 

pio

Autor, Audio Engineer (BA), Sprecher und Musiker
Sprechprobe
Link
Daisy ist ja der Hammer! Geile Idee!
 

Strom

SCHREIBEN • SINGEN • SPRECHEN
Sprechprobe
Link
Ich habe Google's NotebookLM mal mit dem Link zu meinem Hörspiel GARWINDEL auf dem Hoertalk Youtube Channel 'gefüttert' - und dann dazu eine "Audioübersicht" generieren lassen.
(Info auf NotebookLM dazu: Audioübersichten sind lebhafte, detaillierte Diskussionen, in denen die wichtigsten Themen aus Ihren Quellen zusammengefasst werden)

Das erzeugt eine Audiodatei über den Inhalt der Quelle/n in der sich zwei hosts auf englisch im Ami-Radio-Style unterhalten. Also ich finde, das klingt schon erschreckend lebhaft, unsteril und durchaus emotional. Würde NIEMAND merken, dass das nicht tatsächlich von zwei Menschen im Radio besprochen wurde - war aber nur einen 'click weit entfernt' KI erzeugt :(

 

Telliminator

Sample-Collector
Sprechprobe
Link
Wow @Strom das klingt wie Kultur-Radio was Google NoebookLM daraus gemacht hat.

Aber es ist englisch... das ist doch was für die K.I. hab ich mir gedacht und tatsächlich was gefunden, das Audio in Audio übersetzen kann. Da ich nicht zahlen wollte hab ich nur den Testmodus versucht und naja, 1 Minute gabs gratis ...



Ja, vermutlich geht da noch mehr mit besseren Stimmen... aber nette Spielerei. Simulatanübersetzung a la Star Trek Lippensynchron auf dem Screen wir kommen. ...
 

Skeletor26

Overlord of Lüneburg
Sprechprobe
Link
Bin zwiegespalten bei dem Thema. Für jemanden wie mich, der Hörspiele und Filme nur als Hobby betreibt wird KI einige Träumchen wahrwerden lassen. (z.b. wollte Ich in meinen Masters Hörspielen meine Stimme schon immer wie Skeletor aus den alten VHS Kassetten klingen lassen, und nein keine Sorge, diese KI Version wäre dann nur für mich persönlich, sowas verbreite ich dann nicht), aber für die Sprecher / innen die kommerziell arbeiten und davon leben, ist dieser KI Trend natürlich nicht gut. Wie heißt es leider so richtig...Des einen Freud, des anderen Leid...
 

Spirit328

Power Off! - Zumindest für eine gewisse Zeit
Teammitglied
Mein lieber Herr-Gesangsverein: Sind KI-Stimmen eine Gefahr für den Sprecherberuf?

Ja, da ist noch an den ein oder anderen Stellen etwas zu machen, auch wenn es schon sehr ähnlich einem Ami Radio klingt. Der Singsang ist schon da, aber die Wechsel sind zu berechenbar, zu schematisch.
Nun, das liegt auch daran, dass im Ami-Radio so etwas so gemacht wird und zugegeben, das ist schon sehr, sehr nah dran.
Aber der ganze Ausdruck ist eher flach. Auch im Amerikanischen arbeiten sie mit Tonfällen, Betonungen usw. Nicht so ausgeprägt wie im Deutschen (Ich erinnere an 20 "Stories" mit "Liebe Julia"), aber ... ja ... da ist schon viel Ähnlichkeit.

Für mich ist es "nur" die Frage von ein, zwei Jahren und dann sind diese Sprachsynthesen so gut, dass es für Ungeübte nahezu unmöglich sein wird das zu unterscheiden und selbst Hör-Erfahrene werden Schwierigkeiten haben.
Das ist für mich in etwa vergleichbar mit "purer" Musik und MP3.

Es wird wirklich Zeit, dass wir (also die Gesellschaften) uns dem Thema stellen und vereinbaren, wie wir damit umgehen.
Eine Erweiterung der journalistischen Standards und Regeln, die solche Sprachsynthesen ächten und verbieten, vielleicht? Oder lassen wir uns einfach das Heft nicht aus der Hand nehmen und fordern eine generelle Ächtung von Sprachsynthese mit oder zumindest mit Unterstützung von KI?
Bei mir fährt das Kopfkino Achterbahn, wenn ich mir vorstelle, was alles machbar ist und welche Gefahr das bedeuten kann (nicht muss), wenn im Radio (FM und/oder Internet) "nur" noch KI-Stimmen die Informationen vortragen.

Doch bin ich sehr gespannt, wann derartige Sprachsynthesen es schaffen Süffisanz, Ironie, Sarkasmus, Spott, Hohn, Witz und feine Doppeldeutigkeiten mittels Stimmgestaltung hinbekommen.

Ich verstehe, dass das Thema KI faszinierend ist. Kernenergie finde ich als Thema auch sehr faszinierend, aber in der Realität halte ich einen mehr als respektvollen Abstand dazu.
 

WolfsOhr

Mario Wolf
Sprechprobe
Link
Vor allem, weil man heutzutage schon gar nicht mehr weiß, was echt und was Fake ist. Man kann einfach nichts mehr glauben und muss zwangsläufig jedes Video, das man sieht und hört, hinterfragen und recherchieren. Das ist das Tragische und damit tun wir uns keinen Gefallen.
 
Oben