Der Diebstahl der Stimme

Erneut berichten Schweizer Medien über Trickbetrug mit synthetisierten Stimmen lebender Personen. Die Basler Zeitung interviewte am 7. August 2023 Prof. Dr. Oliver Bendel dazu, wie solche synthetischen Stimmen entstehen. Er forscht seit einem Vierteljahrhundert zu KI-Systemen und Robotern und seit sieben Jahren speziell auch zu synthetischen Stimmen. Grundsätzlich werden in solchen Fällen neuronale Netzwerke benutzt. Man kann sie mit der individuellen Stimme trainieren. Dafür braucht es 15 – 30 Minuten an Material. Die Zeit verkürzt sich auf wenige Sekunden, wenn man vorher ein Sprachmodell mit einigen tausend Stimmen trainiert hat und einige Voraussetzungen erfüllt sind. Zu diesen Voraussetzungen gehört, dass die individuelle Stimme einen Verwandten im Trainingsmaterial hat. Die Resultate können so oder so täuschend echt sein. Oft sind aber nicht die gewohnten Hintergrundgeräusche vorhanden, oder es fehlen typische Verhaltensweisen der Person, etwa das Nasehochziehen oder ein Stühlerücken. Es lohnt sich also, gut hinzuhören und im Zweifel auch einen Rückruf zu verlangen. Mehrere Aussagen aus dem Interview wurden in den Beitrag „Betrüger können mit KI die Stimmen lebender Personen imitieren“ aufgenommen, der am 9. August 2023 in der gedruckten Ausgabe der Basler Zeitung erschien. Bereits am Vortag war er in die Onlineauftritte von Tamedia aufgenommen worden.

Abb.: Stimmen kann man an vielen Orten stehlen

Trickbetrug in der Schweiz mit synthetisierten Stimmen lebender Personen

Synthetische Stimmen mit individuellen Zügen lebender Personen werden mehr und mehr für Trickbetrug verwendet. Ein solchen Fall gab es im Sommer 2023 im Aargau in der Schweiz. Ein Mann wurde von seiner vermeintlichen Frau angerufen, ohne dass er zunächst erkannte, dass es sich um eine mit Hilfe von Machine Learning generierte Stimme und damit um einen Trickbetrug handelte. Der Lokalsender Tele M1 interviewte am 4. Juli 2023 Prof. Dr. Oliver Bendel dazu, wie solche synthetischen Stimmen entstehen. Er forscht seit einem Vierteljahrhundert zu KI-Systemen und Robotern und seit sieben Jahren speziell auch zu synthetischen Stimmen. Grundsätzlich werden in solchen Fällen neuronale Netzwerke benutzt. Man kann sie mit der individuellen Stimme trainieren. Dafür braucht es 15 – 30 Minuten an Material. Die Zeit verkürzt sich auf wenige Sekunden, wenn man vorher ein Sprachmodell mit einigen tausend Stimmen trainiert hat und einige Voraussetzungen erfüllt sind. Die Resultate können so oder so täuschend echt sein. Oft sind aber nicht die gewohnten Hintergrundgeräusche vorhanden, oder es fehlen typische Verhaltensweisen der Person, etwa das Nasehochziehen oder ein Stühlerücken. Es lohnt sich also, gut hinzuhören und im Zweifel auch einen Rückruf zu verlangen. Mehrere Aussagen aus dem Interview wurden in den Beitrag „Schockanrufe: So gelangen die falschen Polizisten an die Stimmen der Opfer“ der abendlichen Nachrichtensendung aufgenommen. Weitere Informationen zum Sender über www.telem1.ch.

Abb.: Oliver Bendel bei Tele M1 (Foto: Tele M1)

The Theft of the Voice

The article „The Synthetization of Human Voices“ by Oliver Bendel, first published on 26 July 2017, is now available as a print version. The synthetization of voices, or speech synthesis, has been an object of interest for centuries. It is mostly realized with a text-to-speech system (TTS), an automaton that interprets and reads aloud. This system refers to text available for instance on a website or in a book, or entered via popup menu on the website. Today, just a few minutes of samples are enough in order to be able to imitate a speaker convincingly in all kinds of statements. The article abstracts from actual products and actual technological realization. Rather, after a short historical outline of the synthetization of voices, exemplary applications of this kind of technology are gathered for promoting the development, and potential applications are discussed critically in order to be able to limit them if necessary. The ethical and legal challenges should not be underestimated, in particular with regard to informational and personal autonomy and the trustworthiness of media. The article was published in AI & SOCIETY, 34(1), 83-89.

Fig.: The theft of the voice

Menschenähnlich aussehen und sprechen

„Dass es nur Kunst war, verdeckte die Kunst“, schrieb Ovid über die von Pygmalion geschaffene, menschenähnliche Elfenbeinskulptur, die dann von Aphrodite, in die er eigentlich verliebt war, zum Leben erweckt wurde. Galatea war sogar fruchtbar, anders als ihre Nachfolgerinnen, Liebespuppen wie Harmony und Sexroboter wie Roxxxy. Die natürliche Sprache ist beiden gegeben, und in den letzten Jahren hat man versucht, diese noch natürlicher wirken zu lassen. Oliver Bendel hat untersucht, wie man die Speech Synthesis Markup Language (SSML) zur Manipulation der synthetischen Stimme von Liebespuppen, Sexrobotern und allgemein Servicerobotern gebrauchen kann. Er schlug neue Tags, Attribute und Werte vor, die eine belegte Stimme und auch ein Seufzen und Stöhnen möglich machen. Amazon hat Alexa das Flüstern beigebracht, ebenfalls mit SSML. Google Assistant soll in Zukunft dazu dienen, in Restaurants und Frisörsalons anzurufen (das Projekt wird Duplex genannt). Damit kann man mit einer High-End-Technologie ganz normale Telefone auf der ganzen Welt bedienen und private Aufgaben automatisieren. Die Stimme klingt sehr lebensecht, und das Sprechen überhaupt, auch weil „Ähs“ und „Mmhs“ vorkommen, wie bei echten Menschen. In der Imperfektion könnte der Schlüssel zur Perfektion liegen. Ein Roboter, der für die Promotion von „Westworld“ geschaffen wurde, mit Unregelmäßigkeiten und Haaren im Gesicht, wirkt besonders authentisch, mehr als Harmony und Co. Dass es nur Kunst ist, wird die Kunst immer mehr und immer besser verdecken.

Abb.: Puppen beim Plantschen und Plaudern