The Theft of the Voice

The article „The Synthetization of Human Voices“ by Oliver Bendel, first published on 26 July 2017, is now available as a print version. The synthetization of voices, or speech synthesis, has been an object of interest for centuries. It is mostly realized with a text-to-speech system (TTS), an automaton that interprets and reads aloud. This system refers to text available for instance on a website or in a book, or entered via popup menu on the website. Today, just a few minutes of samples are enough in order to be able to imitate a speaker convincingly in all kinds of statements. The article abstracts from actual products and actual technological realization. Rather, after a short historical outline of the synthetization of voices, exemplary applications of this kind of technology are gathered for promoting the development, and potential applications are discussed critically in order to be able to limit them if necessary. The ethical and legal challenges should not be underestimated, in particular with regard to informational and personal autonomy and the trustworthiness of media. The article was published in AI & SOCIETY, 34(1), 83-89.

Fig.: The theft of the voice

Vernachlässigtes Handy

In einem weiteren KI-(Kunst-)Projekt wurde ein Haiku von Oliver Bendel angepasst, mit Hilfe von Google Translate ins Japanische übersetzt und mit Hilfe der Text-to-Speech-Engine von IBM Watson eingesprochen, unter Verwendung von SSML. Zuerst werden von Emi – so der Name der künstlichen Stimme – die Metainformationen durchgegeben, dann wird das Gedicht selbst vorgetragen. Dieses stammt aus dem Band „handyhaiku“ (1. Aufl. 2010, ein Buch, in dem jedes Gedicht zusätzlich in einem QR-Code steckt) und lautet dort so: „an den waenden mein / vernachlaessigtes handy / auf steckdosenjagd“ … Das Haiku kann über www.handyroman.net/handyhaiku/einstieg.html heruntergeladen werden (Link nicht mehr gültig). Das Projekt hat auch ethische Implikationen. Was bedeutet es, wenn Texte automatisch übersetzt werden? Bleiben sie verständlich? Können sie missverständlich sein? Können sie weitreichende Folgen haben? Was bedeutet es, wenn künstliche immer mehr menschliche Stimmen ablösen? Wenn sie in irgendeinem Sinne perfekt sind und der Mensch danach strebt, diese Perfektion zu erreichen? Oder wenn sie imperfekt sind und das Kind diese Imperfektion imitiert? Genau dies passiert bereits, wenn Pepper ein Familienmitglied in Japan ist, wie Aldebaran bzw. SoftBank vor einiger Zeit auf einer Konferenz in Krakau mitteilte.

Abb.: Mit dem Handy unterwegs in Osaka