Euch alte Hasen kann man natürlich nicht an der Nase herumführen
Nope - und schon gar nicht mit so einer billigen Imitation
In einem Hörspiel habe ich vorgestern einen sprechenden Computer gehört. Der wiederum klang unechter als so ein richtiger Synthie.
Wäre mal interessatn zu wissen, welches Hörspiel und Computer das war...
Bei einem Webangebot (
https://www.naturalreaders.com) habe ich den deutschen Text von einem holländischen Computersprecher aufsagen lassen und es hörte sich erstaunlich nah zu einem Holländer an, der mit starkem Akzent Deutsch spricht - oder seine Falschbetonungen fallen so kaum auf.
Leider doch. In deutsch klingt das kaum besser als dein Eingangsbeispiel - und TTS in einer fremden Sprache mit einem "falschen" Text zu füttern ist genauso, als würde man sich auf reine Übersetzungsprogramme verlassen wollen. Kommt also auch nur Murks bei raus.
Die Frage ist nur, wozu wir diese Computerstimmen brauchen, wenn wir so gute Sprecher*Innen haben,
Zustimm - auch den anderen Ausführungen, wie man sich am besten als Sprecher verhält. Dazu gibts übrigens noch zwei recht junge Threads.
Wie bekomme ich diesen Computerstimmen-Effekt hin? | HoerTalk.de - Hörspiel-Community
Stimme wie Apple`s "Siri" klingen lassen | HoerTalk.de - Hörspiel-Community
Und TTS in Hörspielen einsetzen ist auch früher schon ein paarmal aufgetaucht - alter Hut, bei - ja - noch älteren und schlechteren TTS Systemen.
Aber da ich mich neben der Fiction eben auch mit der Science beschäftige, ist es m.M.n. bei einem realitischen SF Szenario anzunehmen, daß Computerstimmen in Zukunft eben nicht so klingen, sondern sich der menschlichen Stimme sehr stark annähern werden. So nah, daß Menschen den Unterschied nicht mehr feststellen werden können.
Hey, das klingt doch gut - wozu dann ein TTS oder sonstige künstliche Verfremdungen? Wir haben Sprecher dafür, die auch Normal reden können.
Im Ernst, du musst dich entscheiden: künstliches künstlich klingen lassen, oder künstliches natürlich und so gut wie gar nicht unterscheidbar. - Zumindest auf Hörspiele und Film bezogen macht es mehr Sinn, echte Sprecher/Schauspieler zu nehmen und die Stimmen passend zu verfremden.
Beispiele gibts genug: Star Trek klingt schon künstlich genug - stecken aber auch Sprecher dahinter. Data wird von der Stimme her zwar wie ein normaler Mensch, aber Betonungs- und Gefühlsintonation fehlen.
Kleiner modernerer Schwenk: Legends of Tomorrow und The Flash - Gideon basiert in beiden Serien zwar auf die gleiche Zukunftstechnologie, hat aber unterschiedliche Stimmen von echten Menschen, die die gleichen Macken wie die von Data haben - aber es gibt keine seltsamen hoch/runter Toneffekte, keine Ton-Glitches etc. Beeindruckend find ich vor allem Amy Pamberton in Legends, zumal sie in jeder Staffel wenigstens in einer Folge einen Real Life Auftritt hat, weil sich durch irgendwelche Umstände jemand in ihre VR Matrix verirrt. Sie schauspielert Gideon auch als Mensch genausogut, wie Spinner damals Data. (Unbedingt Originale dazu schauen - die deutsche Synchro verfälscht den Eindruck als Fremdstimme evt. dann doch wieder)
Humans und Real Humans - auch hier laufen die Androiden recht künstlich herum, sprechen zwar glatt, aber Gefühlsbetonte Intonierung fehlt meist völlig.
etc. pp. bla bla bla.... die Liste könnt ich jetzt km-weit weiter schreiben. Fakt ist, nirgends kommt man auf die Idee, eine TTS einzusetzen und trotzdem kriegt man genau das, was man haben will oder erwartet.
Selbst das Problem, dass die KI etwas falsch versteht, scheint es - jedenfalls laut dem Artikel oben - bei einigen nicht mehr zu geben. - Die Dinger lernen scheinbar verdammt schnell!
Du mußt aber auch ein Stück weit unterscheiden zwischen KI und Computer generierter Stimme, Peter. Abgesehen mal davon: Google Assistent verwendet genau wie Siri ein Stimmenprofil, Alexa hingegen soll angeblich mit Amazon Lex eine Software sein, die ohne sowas auskommt (wer's glaubt....
)
Siri und Alexa haben eine saubere und deutlichere Aussprache. Es hat sich auch in den letzten Jahren deutlich was getan was das angeht.
Wobei man hier unterscheiden muss: Viele der Antworten die Alexa oder Siri geben wurden komplett als ganzer Satz aufgenommen und einige Wortspiele und „Catchphrases“ an die jeweilige Landessprache angepasst. Hat dann weniger mit Sprachsynthese zu tun sondern lediglich "einsprechen".
Wie gesagt, im großen und ganzen stimme ich dem zu. Siri's us Originalstimme ist übrigens die Voice-Over Actress Susan Bennett (vielen auch durch diverse Navigationssysteme und Werbespots bekannt, die ließ sich dadurch gar nicht lange verheimlichen). In dieser Voice Assistent Sache war Apple gewissermaßen Vorreiter. Google hält die Namen der Sprecher unter Verschluss, Amazon behauptet: da gäbe es niemanden. (Ich schreibs nochmal: wers glaubt....? Ich vermute mal, die haben eher unbekannte Mitarbeiter/Externe verwendet, die kaum wer kennt und sich deshalb leicht verheimlichen lassen!), Microsoft Cortana wird im englischem Original von Jennifer Lee (Jen) Taylor gesprochen (sie spricht auch Cortana in der Halo Games Serie, irgendwas bei Left4Dead und noch so einiges mehr - ist auch schlecht zu verheimlichen gewesen durch ihren Bekanntheitsgrad).
In der musik gibt es das Verfahren "humanize" um zu korrekte computerklänge zu vermenschlichen.
Interessant! Das wusste ich noch gar nicht. Wieder was gelernt!
Danke!
Das betrifft aber auch nur künstlich generiertes, Loops usw. um diverse Fehler einzubauen, damit das eben nicht permanent gleich klingt. In Sachen Loops machen wir das im Hörspiel teils ähnlich, spielen mit ein paar kleinen Effekten oder mischen andere Samples hier und da in der Gesammtlänge unter, um den Loop zu kaschieren.
Ansonsten: in der Musik gibts mehrere Verfahren, die teils auch in normale Sprechaufnahmen verwendung finden:
Melodyne - Gesang, bzw. eine Tonfolge durch eine Menschliche Stimme wie ein Instrument klingen zu lassen (bevorzugt E-Gitarren). Ursprünglich reine Hardware, gibt es aber mitlerweile auch Plugins für. Das ganze ist ein Mix aus diversen Effekten und einem...
...Vocoder. Dazu nimmt man zwei Klangquellen, die einfach ausgedrückt, sich gegenseitig überlagern udn klanglich aufeinander abgestimmt werden. Anders als bei Melodyne nutzt man das nicht nur für Stimmen, sondern für Klänge aller Art.
Robosize, Dalek und Smurf. Hoch und runterziehen der Stimme, kombiniert mit Ringkernmodulator. Ringkern könnte ich nochmal extra aufführen, aber DAS ist im Dalek-Effekt (die KI Konklave (quasi ähnlich den Borgs grins) und Roboter aus Dr. Who) ja schon enthalten
Impuls Response Effects - für einige wird das jetzt "strange" klingen, kennt man IR's (Impulsantworten) eher nur zum simulieren von Raumklang. ABER, es gibt einige IR's die entweder durch Effektbatterien geschoben wurden, andere deren natürliche Umgebungen Klang mit mehr als nur Echo und Hall verändern kann. Entsprechend funktioniert das auch bei Sprache und der eigentliche Zweck der IR's kann damit Zweckentfremdet werden. Spielen mit Wet und Dry bei solchen Impulsantwort-Vorlagen, evt, noch kleine Zusatzeffekte dazu. Aber im Wesentlichen ersparrt man sich so den Aufbau von diversen Effektketten in der DAW - ersetzt also durchaus auch mal auf einen Schlag ein paar Plugins.
Autotune - das wohl modernste im Musikbereich - und grauenhafteste, wenn Sänger es über die ganze Liedlänge brauchen. Damit sollen Melodieunstimmigkeiten der Menscen ausgeglichen werden. Also der Stimmklang künstlich zu Melodie begradigt werden. ABER: das klingt häufig an vielen Stellen eher künstlich, verfremdet die Stimme des Künstlers mehr. Wenn da nicht die Emotionalen Intonierungen drin wären kann man damit einen Menschen in eine TTs Stimme verwandeln, die fast so klingt wie das Beispiel hier in Post 1. Oh, und damit haben wir tatsächlich, wi in den anderne beiden Threads auch shcon was gefunden, um TTS besser ersetzen zu können, und die Aussprache bleibt auch besser verständlich, trotz des künstlichen Kunstklangs! (WOBEI: ich hasse Künstler die damit durchgängig arbeiten. Die meisten können auch real nicht singen und dank Autotune wurde daraus auch noch eine Gesangs-Kult-Form draus gemacht, damit deren eigenen Schwächen gar nicht erst auffallen - bah, igitt. Cher's Belive bleibt eine von den besseren Ausnahmen. Sie singt im Refrain absichtlich und sogar gezielt falsch, damit das Plugin eben den passenden Kunsteffekt an den Stellen auslöst. Das passt viel besser, aber übertreiben sollte mans damit echt nicht).
PS: oft wird Autotune mit Melodyne verglichen - ist aber völliger Blödsinn. Bei Melodyne musst du den Ton schon treffen, im Gegensatz zu Autotune.
Tja, Marmax - wir brauchen wirklich kein TTS um falsch und künstlich zu klingen. Das kriegen wir besser hin