Spirit328

Power Off! - Zumindest für eine gewisse Zeit
Teammitglied
Aus eigener Erfahrung mit einem kompletten Hörspiel (-chen, weil gerade mal 11 min kurz) kann ich sagen, dass die Sprachsynthese via KI eine echte Herausforderung ist.
So habe ich zwei Tage lang versucht die Sprachsynthese davon zu überzeugen, wenigstens so viel "Menschlichkeit" im Sinne von Betonung und Pausen, hineinzulegen, dass es dem Zweck diente.

Letztlich habe ich das Skript an einigen Stellen drastisch umbauen müssen, weil sich das Original so einfach nicht angehört hat. Das war zum Teil sooooo schlecht betont und ausgesprochen, dass es sinnentstellend und/oder nicht mehr verständlich war.
Nun, es war auch nicht die beste verfügbare Sprachsynthese, sondern "nur" die von Soundly, aber selbst damit war es eine derartige Frickelei, dass ich denke, dass man das mit Menschen, sprich erfahrenen Sprechenden, nicht langsamer umgesetzt hätte.
Für das Skript funktioniert es, dass es gesprochene Texte einer Sprachsynthese sind, aber für eine Geschichte, die menschlichen Ausdruck und Emotionen brauchen würde, ist diese Lösung VÖLLIG ungeeigenet.
Nun gibt es deutlich bessere Sprachsynthese-Tools (vulgo: KI-Tools), die das bestimmt viel besser hinbekommen. Oder wo die derzeitige Leistungsfähigkeit dieser Tools, den Anforderungen so nahe kommt, dass es passend erscheint.
Einzig ein "weiter so wie bisher", wird es wohl nicht mehr geben. Aber an diese Stelle wird etwas anderes treten, ohne dass ich sagen könnte was, wann und wie.

Ich war in den letzten drei Tagen im IBM Museum in Böblingen und habe viele spannende Aufnahmen gemacht. Schon in den frühen 50er Jahren des letzten Jahrtausends hat man vorausgesagt, dass viele Leute arbeitslos werden würden, wenn die Computer kommen. Und selbst als diese immer leistungsfähiger wurden, waren immer zu wenig Leute da, um den Job zu machen, diese Dinger am Laufen zu halten.

Ja! Die Sprachsynthese wird nicht stehen bleiben und immer weiter "vorrücken". Sie wird die Art und Weise, wie heute das Sprecherinnen- und Sprecher-Geschäft heute noch läuft, ziemlich verändern. @Deunan hat das sehr treffend beschrieben.

Vielleicht könnte man einen "Shoot-Out" organisieren, wo ein Hörspiel / Shortie von Menschen und von einer Sprachsynthese Funktionalität gesprochen wird?
Zum einen als Bestandsaufnahme und zum anderen zum besseren Verständnis, wo die menschlichen Sprecherinnen und Sprecher noch immer weit im Vorteil sind.
Wie findet Ihr das?
 

pio

Autor, Audio Engineer (BA), Sprecher und Musiker
Sprechprobe
Link
Daisy ist ja der Hammer! Geile Idee!
 

Strom

SCHREIBEN • SINGEN • SPRECHEN
Sprechprobe
Link
Ich habe Google's NotebookLM mal mit dem Link zu meinem Hörspiel GARWINDEL auf dem Hoertalk Youtube Channel 'gefüttert' - und dann dazu eine "Audioübersicht" generieren lassen.
(Info auf NotebookLM dazu: Audioübersichten sind lebhafte, detaillierte Diskussionen, in denen die wichtigsten Themen aus Ihren Quellen zusammengefasst werden)

Das erzeugt eine Audiodatei über den Inhalt der Quelle/n in der sich zwei hosts auf englisch im Ami-Radio-Style unterhalten. Also ich finde, das klingt schon erschreckend lebhaft, unsteril und durchaus emotional. Würde NIEMAND merken, dass das nicht tatsächlich von zwei Menschen im Radio besprochen wurde - war aber nur einen 'click weit entfernt' KI erzeugt :(

 

Telliminator

Sample-Collector
Sprechprobe
Link
Wow @Strom das klingt wie Kultur-Radio was Google NoebookLM daraus gemacht hat.

Aber es ist englisch... das ist doch was für die K.I. hab ich mir gedacht und tatsächlich was gefunden, das Audio in Audio übersetzen kann. Da ich nicht zahlen wollte hab ich nur den Testmodus versucht und naja, 1 Minute gabs gratis ...



Ja, vermutlich geht da noch mehr mit besseren Stimmen... aber nette Spielerei. Simulatanübersetzung a la Star Trek Lippensynchron auf dem Screen wir kommen. ...
 

Skeletor26

Overlord of Lüneburg
Sprechprobe
Link
Bin zwiegespalten bei dem Thema. Für jemanden wie mich, der Hörspiele und Filme nur als Hobby betreibt wird KI einige Träumchen wahrwerden lassen. (z.b. wollte Ich in meinen Masters Hörspielen meine Stimme schon immer wie Skeletor aus den alten VHS Kassetten klingen lassen, und nein keine Sorge, diese KI Version wäre dann nur für mich persönlich, sowas verbreite ich dann nicht), aber für die Sprecher / innen die kommerziell arbeiten und davon leben, ist dieser KI Trend natürlich nicht gut. Wie heißt es leider so richtig...Des einen Freud, des anderen Leid...
 

Spirit328

Power Off! - Zumindest für eine gewisse Zeit
Teammitglied
Mein lieber Herr-Gesangsverein: Sind KI-Stimmen eine Gefahr für den Sprecherberuf?

Ja, da ist noch an den ein oder anderen Stellen etwas zu machen, auch wenn es schon sehr ähnlich einem Ami Radio klingt. Der Singsang ist schon da, aber die Wechsel sind zu berechenbar, zu schematisch.
Nun, das liegt auch daran, dass im Ami-Radio so etwas so gemacht wird und zugegeben, das ist schon sehr, sehr nah dran.
Aber der ganze Ausdruck ist eher flach. Auch im Amerikanischen arbeiten sie mit Tonfällen, Betonungen usw. Nicht so ausgeprägt wie im Deutschen (Ich erinnere an 20 "Stories" mit "Liebe Julia"), aber ... ja ... da ist schon viel Ähnlichkeit.

Für mich ist es "nur" die Frage von ein, zwei Jahren und dann sind diese Sprachsynthesen so gut, dass es für Ungeübte nahezu unmöglich sein wird das zu unterscheiden und selbst Hör-Erfahrene werden Schwierigkeiten haben.
Das ist für mich in etwa vergleichbar mit "purer" Musik und MP3.

Es wird wirklich Zeit, dass wir (also die Gesellschaften) uns dem Thema stellen und vereinbaren, wie wir damit umgehen.
Eine Erweiterung der journalistischen Standards und Regeln, die solche Sprachsynthesen ächten und verbieten, vielleicht? Oder lassen wir uns einfach das Heft nicht aus der Hand nehmen und fordern eine generelle Ächtung von Sprachsynthese mit oder zumindest mit Unterstützung von KI?
Bei mir fährt das Kopfkino Achterbahn, wenn ich mir vorstelle, was alles machbar ist und welche Gefahr das bedeuten kann (nicht muss), wenn im Radio (FM und/oder Internet) "nur" noch KI-Stimmen die Informationen vortragen.

Doch bin ich sehr gespannt, wann derartige Sprachsynthesen es schaffen Süffisanz, Ironie, Sarkasmus, Spott, Hohn, Witz und feine Doppeldeutigkeiten mittels Stimmgestaltung hinbekommen.

Ich verstehe, dass das Thema KI faszinierend ist. Kernenergie finde ich als Thema auch sehr faszinierend, aber in der Realität halte ich einen mehr als respektvollen Abstand dazu.
 

WolfsOhr

Mario Wolf
Sprechprobe
Link
Vor allem, weil man heutzutage schon gar nicht mehr weiß, was echt und was Fake ist. Man kann einfach nichts mehr glauben und muss zwangsläufig jedes Video, das man sieht und hört, hinterfragen und recherchieren. Das ist das Tragische und damit tun wir uns keinen Gefallen.
 

MonacoSteve

Dipl.-Lachfalter - und nicht ganz Dichter
Teammitglied
Ich habe Google's NotebookLM mal mit dem Link zu meinem Hörspiel GARWINDEL auf dem Hoertalk Youtube Channel 'gefüttert' - und dann dazu eine "Audioübersicht" generieren lassen.
(Info auf NotebookLM dazu: Audioübersichten sind lebhafte, detaillierte Diskussionen, in denen die wichtigsten Themen aus Ihren Quellen zusammengefasst werden)
Also DAS hat mich jetzt komplett umgehauen!! Na gut, als Rentner lebt man wahrscheinlich bezüglich so mancher Entwicklung irgendwann hinter dem Mond. Aber so weit dahinter??

Und jetzt nicht falsch verstehen - dass zwei diskutierende KI-Stimmen sich ziemlich menschlich anhören können (wie menschlich auf Amerikanisch wirklich könnten hier wahrscheinlich nur Muttersprachler erschöpfend beurteilen) ist gar nicht mein Punkt - in der Hinsicht haben wir inzwischen schon viel Erstaunliches gehört und erlebt.

Viel mehr erschüttert mich in meiner Restnaivität, dass eine KI es tatsächlich schafft, ein ihr zuvor völlig unbekanntes, neues und sogar ziemlich komplexes literarisches Produkt (hier sogar "nur" gesprochen) nicht nur inhaltlich korrekt durchzuanalysieren, sondern eine Zusammenfassung (hier auch wieder gesprochen als eine Art Podcast) wiederzugeben, welche die Essenz enthält, den Sinn erkennt und sogar Form und Ausführung interpretiert. Wofür zur Hölle brauchen wir und unsere Kinder eigentlich wirklich noch unser eigenes Hirn, wenn solche immer schon extrem anspruchsvollen mentalen Leistungen jetzt auf Kopfdruck aus der Kiste springen?

Langsam wird mir immer klarer, warum die Menschheit in der Masse unaufhaltsam verdummt - wie das aktuelle Weltgeschehen leider nur allzu deutlich zeigt.

Uff, sorry Leute, das musste jetzt raus!
 

Spirit328

Power Off! - Zumindest für eine gewisse Zeit
Teammitglied
... und schon Albert Einstein wusste, dass es zwei Dinge gibt, die unendlich sind: Die Dummheit der Menschheit und das Universum. Beim Universum war es sich da nicht so sicher.

Und wenn man es streng nach den Buchstaben nimmt, ist das, was wir KI nennen nicht einmal im Ansatz so etwas wie Intelligenz. Es sind neuronale Netzwerke, die sich an Wahrscheinlichkeiten entlang hangeln. Das ist KEINE Intelligenz, sondern maximal Stochastik.

Unabhängig davon, stimme ich der Autorin, die @WolfsOhr zitierte, uneingeschränkt zu.
Es ist ja schon heute so, dass unsere Demnächst-Rentenzahler immer weniger in die Lage versetzt werden Probleme als solche zu erkennen und zu beschreiben, ganz zu schweigen davon, dass sie keine Strategien gelernt haben sie zu lösen!
Wer immer nur Hr. Google oder Siri oder ... wie auch immer etwaige neuronale Netzwerke genannt werden, um Rat fragt, der verstößt elementar gegen das "Sesamstraßen-Prinzip": "Wer, wie, was - wieso, weshalb, warum? - Wer nicht fragt bleibt dumm!"

Beispiel gefällig?
Eine Forschergruppe aus Melbourne hat vor einigen Jahren folgende Untersuchung durchgeführt:
30 Studierende wurden von einer (fiktiven) Outdoor-Produkte Firma als "Tester" gesucht.
Sie sollten die neue Produkt-Kollektion testen und zwar 10 Tage und Nächte im Outback in Australien.
Sie würden am Ende die Produkte behalten dürfen, wenn sie wollen und sie bekommen auch jede/r 2.000 AU$, wenn sie die 10 Tage durchhalten.
Einzig für ihre Verpflegung müssten sie für diese 10 Tage selber sorgen, damit jeder das isst, was sie/er verträgt.
Es meldeten sich mehrere Hundert Interessenten, von den per Los die 30 Tester ausgewählt wurden.

Es gab einen "Einweisungstag" für die neuen Produkte in der (fiktiven) Niederlassung in Melbourne, an dem alle 30 Tester noch einmal nachdrücklich darauf hingewiesen wurden, dass sie selber für ihre Verpflegung zu sorgen hätten und alle haben das ohne Zögern unterschrieben, dass sie diesbezüglich belehrt wurden.

Drei Tage später ging es los und man hat sie ins Outback gefahren und ihnen viel Erfolg und eine gute Zeit gewünscht!
Zur Sicherheit haben einige erfahrene Ranger das Treiben aus größerer Entfernung beobachtet und auch die Forscher hatten an vielen Stellen versteckte Kameras postiert.

Am zweiten Tag waren alle (!) Vorräte, wenn man das so nennen mag, aufgebraucht.
Was ist es im Outback im Sommer? - Richtig! Heiß und sehr, sehr trocken.
Nun haben die Blitzmerker ihre Handies gezügt und bei Amazon eine Menge Dinge bestellen wollen ... aber ... im Outback gibt es keinen Empfang von 5G, LTE, 3G, 2G ... nichts. Nur Wüste, Trockenheit, Hitze und ein paar krabbelnde Insekten.
Am Abend liefen einige los in die Richtung in die sie die letzte größere menschliche Ansiedlung vermuteten (die aber genau in der entgegengesetzten Richtung lag), um Handy Empfang zu bekommen. Die im Lager verbleibenden Student*innen versuchten sich in Survival Techniken ... na ja!
Am vierten Tag am frühen Morgen sind die Ranger erschienen, haben Wasser und Nahrung gebracht, die Studierenden eingesammelt und das Experiment abgebrochen. Die vier "Ausreißer" hatten sie schon in der Nacht aus ihrer mehr als misslichen Lage befreit. Sie waren sehr stark dehydriert.
 

Lauschecke

Lauschecke
Nun ja...ich finde den Vergleich mit diesem Experiment an sich schon seeehr vage, aber der Botschaft dahinter stimme ich durchaus zu: Der Mensch verlässt sich zu sehr auf die Technik. Das könnte natürlich dazu führen, dass er einmal verlassen wird - aber langsam driften wir hier in eine interessant philosphische Richtung ab 😁

Ich finde es sehr spannend, all diese Ansichten, Meinungen & dergleichen zu sammeln. Egal ob Wissen, weihnachtlicher Spekulatius oder wie auch immer. Der Mittelwert daraus ergibt sich wohl in Richtung: Dem Einen nützt´s was, dem anderen schadets.
 

MonacoSteve

Dipl.-Lachfalter - und nicht ganz Dichter
Teammitglied
Das überrascht mich, denn zumindest kunstvoll und korrekt reimen konnte ChatGPT bis vor kurzen überhaupt nicht. Kann sein, dass sich das inzwischen auch geändert hat natürlich. Aber Lyrik ohne Rhythmus und Reim ist formal viel einfacher zu generieren - und Inhalt kann man bekanntlich selbst da noch hineininterpretieren, wo es keinen gibt. (OK das Letzte war jetzt böse.)
 

Noir

Mitglied
Doch doch ... das kann ChatGPT ganz gut inzwischen. Es kriegt sogar Liedtexte hin, die sehr gut funktionieren.
 

Telliminator

Sample-Collector
Sprechprobe
Link
Es muss mittlerweile aber auch nicht immer nur ChatGPT sein, die K.I. von Google, Gemini, ehemals Bart, Aria Opera, Copilot von Microsoft, Firefox Orbit setzen alle nach und helfen einem Texte zu erstellen.

Danach ist es nur noch ein kurzes Stück um Audio daraus mittels Text2Speech zu generieren. Hier hat man die Qual der Wahl von mies bis schlechte Stimme bis hin zu klingt nahezu menschlich oder man greift zu den neuen Sprach K.I. Generatoren, die Texte fast schon realistisch wiedergeben können und auf einem ganz anderen Level agieren., als nur einfache Text2Speech Sprach-Synthese.

Na, mal einen Blick auf das werfen, was K.I. Sprachgeneratoren können?
Seid bitte nicht geschockt, diese Seite beleuchtet 5 der bisher Besten K.I. Systeme für Sprache:

Und da sich vielleicht doch einige noch nicht ganz schocken lassen. Hier das künstliche Radio,
Absolut Radio AI. Ein Radiosender, der komplett von einer K.I. gesteuert und moderiert wird.

 
Zuletzt bearbeitet:
Oben