Künstliches, aber lebensechtes Sprechen

Synthetische Stimmen kann man in vielfältiger Weise gestalten und anpassen. Man kann das Geschlecht vorgeben und das Alter, die Tonhöhe, die Klangfarbe und die Lautstärke variieren. Dafür steht zum Beispiel die Speech Synthesis Markup Language (SSML) zur Verfügung. Einige Befehle sind dafür geeignet, die Stimmen lebensechter zu machen. Selbst ein Flüstern kann man mit SSML inzwischen definieren, das ja nicht nur ein leises, sondern ein stimmloses Sprechen ist. Alexa wirkt damit noch menschlicher. Wie Google Duplex eindrucksvoll gezeigt hat, sind auch Pausen wichtig sowie Verzögerungslaute wie „Mmh“ und „Ähh“, also spezifische Sprechweisen. Die Einbindung von Kopf- und Körpergeräuschen könnte den Echtheitsgrad und die Überzeugungskraft weiter steigern. Wenn sich der virtuelle Assistent räuspert, wenn er die Nase hochzieht, die gar nicht vorhanden ist, dürfte kaum noch jemand denken, dass es sich um kein menschliches Gegenüber handelt. Ferner ist es möglich, Neben- und Hintergrundgeräusche zu integrieren. Übertreiben darf man es freilich nicht, und alle Geräusche müssen letztlich zusammenpassen.

Abb.: Die Sprechpyramide