Schlagworte: Sprachsynthese

Sprechende Maschinen

Schon vor tausenden Jahren träumte der Mensch davon, künstliche Kreaturen zu schaffen. Diese sollten seine Gehilfen sein, seine Begleiter, Geliebten und Krieger. Bei Homer und Ovid lernen wir sie kennen, schätzen und fürchten. Die meisten dieser Kreaturen, auch in Mittelalter, Renaissance und Barock, waren stumm. Damit wurde die Kluft zwischen ihnen und uns angedeutet. Eine Ausnahme bildeten die sprechenden Köpfe, die in die Zukunft blicken konnten. Heute tragen uns Text-to-Speech-Systeme die Inhalte von Websites vor, plaudern Sprachassistenten wie Siri und Alexa mit uns und melden sich Fahrzeuge laut und vernehmlich zu Wort. Ein weites Feld aus technischer, psychologischer und ethischer Perspektive. Der Artikel “Sprechende Maschinen” von Oliver Bendel, der im September 2018 in der UnternehmerZeitung erschienen ist, schlägt einen Bogen von der Antike bis zur Gegenwart und zeigt heutige Möglichkeiten und Herausforderungen bei synthetischen Stimmen auf. Der Beitrag kann hier heruntergeladen werden.

Abb.: Sprechende Menschen (mit Maschine)

Im Dialog mit Maschinen

“Keywords wie Digitalisierung, Künstliche Intelligenz und Big Data sind in aller Munde. Der Versicherungs- und Bankenmarkt steht unter ständiger Veränderung, Rahmenbedingungen ändern sich rapide und eine optimale Kundenbindung gewinnt zunehmend an Bedeutung. Doch worauf dürfen – und müssen – wir uns zukünftig einstellen?” (Einladung APRIL) Über diese und weitere Themen wird beim diesjährigen APRIL-Praxisforum in München am 26. September 2018 diskutiert. Die Keynote von Oliver Bendel aus Zürich trägt den Titel “Im Dialog mit Maschinen”. Ob iPal, Pepper oder Lio – viele Roboter verstehen uns und sprechen mit uns. Virtuelle Assistenten wie Siri und Cortana belauschen uns und klingen immer menschenähnlicher. Alexa kann dank SSML inzwischen flüstern. Mit SSML kann man grundsätzlich in die Stimme eingreifen, sie höher und tiefer, jünger und älter machen, sie zufrieden und unsicher klingen lassen. Bei Google Duplex wurde zudem die Sprechweise angepasst, wurden Unterbrechungen und Ähs eingebaut. Was ist der technische Stand bei der Sprachsynthese, was ist aus ethischer Sicht anzumerken? Auf solche Fragen gibt Oliver Bendel Antworten. Weitere Informationen über www.april.de/index.php?id=124.

Abb.: Kann er mich verstehen?

Menschenähnlich aussehen und sprechen

“Dass es nur Kunst war, verdeckte die Kunst”, schrieb Ovid über die von Pygmalion geschaffene, menschenähnliche Elfenbeinskulptur, die dann von Aphrodite, in die er eigentlich verliebt war, zum Leben erweckt wurde. Galatea war sogar fruchtbar, anders als ihre Nachfolgerinnen, Liebespuppen wie Harmony und Sexroboter wie Roxxxy. Die natürliche Sprache ist beiden gegeben, und in den letzten Jahren hat man versucht, diese noch natürlicher wirken zu lassen. Oliver Bendel hat untersucht, wie man die Speech Synthesis Markup Language (SSML) zur Manipulation der synthetischen Stimme von Liebespuppen, Sexrobotern und allgemein Servicerobotern gebrauchen kann. Er schlug neue Tags, Attribute und Werte vor, die eine belegte Stimme und auch ein Seufzen und Stöhnen möglich machen. Amazon hat Alexa das Flüstern beigebracht, ebenfalls mit SSML. Google Assistant soll in Zukunft dazu dienen, in Restaurants und Frisörsalons anzurufen (das Projekt wird Duplex genannt). Damit kann man mit einer High-End-Technologie ganz normale Telefone auf der ganzen Welt bedienen und private Aufgaben automatisieren. Die Stimme klingt sehr lebensecht, und das Sprechen überhaupt, auch weil “Ähs” und “Mmhs” vorkommen, wie bei echten Menschen. In der Imperfektion könnte der Schlüssel zur Perfektion liegen. Ein Roboter, der für die Promotion von “Westworld” geschaffen wurde, mit Unregelmäßigkeiten und Haaren im Gesicht, wirkt besonders authentisch, mehr als Harmony und Co. Dass es nur Kunst ist, wird die Kunst immer mehr und immer besser verdecken.

Abb.: Puppen beim Plantschen und Plaudern

Künstliche Stimmen künstlicher Wesen

Die 2. VDI-Konferenz “Humanoide Roboter” am 5. und 6. Dezember 2017 beschäftigte sich wieder – wie die 1. VDI-Konferenz mit diesem Titel – mit “dem Menschen nachempfundenen Robotern” (Website VDI). Am 6. Dezember 2017 sprach Prof. Dr. Oliver Bendel (Hochschule für Wirtschaft FHNW) über “SSML für humanoide Serviceroboter”. Es ging darum, wie man künstliche Stimmen so manipuliert, dass sie z.B. zu Informations- und Navigationsrobotern passen. Am Rande stellte er auch Fragen aus der Ethik heraus, etwa mit Blick auf die Stimmen von Pflegerobotern. Der Postprint kann hier heruntergeladen werden. Es folgte Dr.-Ing. Hendrik Wöhrle vom DFKI mit einem Vortrag über “Eingebettete Biosignalverarbeitung und integrierte Regelung eines Ganzkörper-Exoskelettes für die Neuro-Rehabilitation”. Der Moderator, Prof. Dr. Frank Kirchner vom DFKI, ging zusammen mit dem jungen Wissenschaftler auf Fragen aus dem Publikum ein. Prof. Dr. Elisabeth André (Universität Augsburg) referierte dann zur “Personalisierung der Mensch-Roboter-Interaktion durch sozialsensitives Lernen”. Die Teilnehmerinnen und Teilnehmer der Konferenz hatten sich an beiden Tagen interessiert an ethischen Fragestellungen gezeigt. Dem soll bei der nächsten Durchführung verstärkt Rechnung getragen werden.

Abb.: Auch Nao hat eine künstliche Stimme