Aus eigener Erfahrung mit einem kompletten Hörspiel (-chen, weil gerade mal 11 min kurz) kann ich sagen, dass die Sprachsynthese via KI eine echte Herausforderung ist.
So habe ich zwei Tage lang versucht die Sprachsynthese davon zu überzeugen, wenigstens so viel "Menschlichkeit" im Sinne von Betonung und Pausen, hineinzulegen, dass es dem Zweck diente.
Letztlich habe ich das Skript an einigen Stellen drastisch umbauen müssen, weil sich das Original so einfach nicht angehört hat. Das war zum Teil sooooo schlecht betont und ausgesprochen, dass es sinnentstellend und/oder nicht mehr verständlich war.
Nun, es war auch nicht die beste verfügbare Sprachsynthese, sondern "nur" die von Soundly, aber selbst damit war es eine derartige Frickelei, dass ich denke, dass man das mit Menschen, sprich erfahrenen Sprechenden, nicht langsamer umgesetzt hätte.
Für das Skript funktioniert es, dass es gesprochene Texte einer Sprachsynthese sind, aber für eine Geschichte, die menschlichen Ausdruck und Emotionen brauchen würde, ist diese Lösung VÖLLIG ungeeigenet.
Nun gibt es deutlich bessere Sprachsynthese-Tools (vulgo: KI-Tools), die das bestimmt viel besser hinbekommen. Oder wo die derzeitige Leistungsfähigkeit dieser Tools, den Anforderungen so nahe kommt, dass es passend erscheint.
Einzig ein "weiter so wie bisher", wird es wohl nicht mehr geben. Aber an diese Stelle wird etwas anderes treten, ohne dass ich sagen könnte was, wann und wie.
Ich war in den letzten drei Tagen im IBM Museum in Böblingen und habe viele spannende Aufnahmen gemacht. Schon in den frühen 50er Jahren des letzten Jahrtausends hat man vorausgesagt, dass viele Leute arbeitslos werden würden, wenn die Computer kommen. Und selbst als diese immer leistungsfähiger wurden, waren immer zu wenig Leute da, um den Job zu machen, diese Dinger am Laufen zu halten.
Ja! Die Sprachsynthese wird nicht stehen bleiben und immer weiter "vorrücken". Sie wird die Art und Weise, wie heute das Sprecherinnen- und Sprecher-Geschäft heute noch läuft, ziemlich verändern. @Deunan hat das sehr treffend beschrieben.
Vielleicht könnte man einen "Shoot-Out" organisieren, wo ein Hörspiel / Shortie von Menschen und von einer Sprachsynthese Funktionalität gesprochen wird?
Zum einen als Bestandsaufnahme und zum anderen zum besseren Verständnis, wo die menschlichen Sprecherinnen und Sprecher noch immer weit im Vorteil sind.
Wie findet Ihr das?
So habe ich zwei Tage lang versucht die Sprachsynthese davon zu überzeugen, wenigstens so viel "Menschlichkeit" im Sinne von Betonung und Pausen, hineinzulegen, dass es dem Zweck diente.
Letztlich habe ich das Skript an einigen Stellen drastisch umbauen müssen, weil sich das Original so einfach nicht angehört hat. Das war zum Teil sooooo schlecht betont und ausgesprochen, dass es sinnentstellend und/oder nicht mehr verständlich war.
Nun, es war auch nicht die beste verfügbare Sprachsynthese, sondern "nur" die von Soundly, aber selbst damit war es eine derartige Frickelei, dass ich denke, dass man das mit Menschen, sprich erfahrenen Sprechenden, nicht langsamer umgesetzt hätte.
Für das Skript funktioniert es, dass es gesprochene Texte einer Sprachsynthese sind, aber für eine Geschichte, die menschlichen Ausdruck und Emotionen brauchen würde, ist diese Lösung VÖLLIG ungeeigenet.
Nun gibt es deutlich bessere Sprachsynthese-Tools (vulgo: KI-Tools), die das bestimmt viel besser hinbekommen. Oder wo die derzeitige Leistungsfähigkeit dieser Tools, den Anforderungen so nahe kommt, dass es passend erscheint.
Einzig ein "weiter so wie bisher", wird es wohl nicht mehr geben. Aber an diese Stelle wird etwas anderes treten, ohne dass ich sagen könnte was, wann und wie.
Ich war in den letzten drei Tagen im IBM Museum in Böblingen und habe viele spannende Aufnahmen gemacht. Schon in den frühen 50er Jahren des letzten Jahrtausends hat man vorausgesagt, dass viele Leute arbeitslos werden würden, wenn die Computer kommen. Und selbst als diese immer leistungsfähiger wurden, waren immer zu wenig Leute da, um den Job zu machen, diese Dinger am Laufen zu halten.
Ja! Die Sprachsynthese wird nicht stehen bleiben und immer weiter "vorrücken". Sie wird die Art und Weise, wie heute das Sprecherinnen- und Sprecher-Geschäft heute noch läuft, ziemlich verändern. @Deunan hat das sehr treffend beschrieben.
Vielleicht könnte man einen "Shoot-Out" organisieren, wo ein Hörspiel / Shortie von Menschen und von einer Sprachsynthese Funktionalität gesprochen wird?
Zum einen als Bestandsaufnahme und zum anderen zum besseren Verständnis, wo die menschlichen Sprecherinnen und Sprecher noch immer weit im Vorteil sind.
Wie findet Ihr das?