DALL-E 3 und die Schönheit

Bekanntlich generiert DALL-E 3 Schönheit am laufenden Band. Wie in einem anderen Post thematisiert, wird Hässlichkeit von dem Bildgenerator fast ausgeschlossen. Daher widmete sich eine Versuchsreihe am 15. Oktober 2023 nun ausdrücklich der Schönheit. Wenn alle schön sind, wie kann man sie noch schöner machen? Eine naheliegende Vermutung ist, dass das Alter eine Rolle spielt. Aus evolutionsbiologischen Gründen sind viele Männer jungen Frauen oder Mädchen (die erwachsen genug erscheinen) zugeneigt. DALL-E 3 gestattet es durchaus, solche Prototypen zu generieren, auch wenn es extrem sensibel bei den Prompts (bzw. den Interpretationen von ChatGPT, das die Schnittstelle ist) reagiert. Eine junge Surferin im T-Shirt am Strand ist durchaus überzeugend in Bezug auf den hier behandelten Aspekt, ebenso – unten zu sehen – eine Kollegin im Neoprenanzug. Beeindruckend auch eine junge schwarze Frau im Kleid und eine junge weiße Frau im T-Shirt im Garten. Der Versuch, ein Mädchen mit dem Hinzufügen großer Augen noch attraktiver zu machen, kann als misslungen angesehen werden. Ein anderes Bild mit einem Mädchen im Kleid hingegen gelingt, wirkt aber etwas kitschig. Auch eine Eva mit Apfel am Strand kann überzeugen. Jugendliche Schönheit kann man naturgemäß mit Pickeln stören. Die Beispiele von DALL-E 3 beweisen, dass es von unreiner Haut wenig Ahnung hat. Lediglich eines kann man durchgehen lassen. Das Weinen, das zugleich gezeigt werden soll, wirkt aber sowohl untertrieben (es sind keine Tränen zu sehen) als auch übertrieben (man beachte die unrealistische Akrobatik der Stirn). Schönheit im Alter ist ebenfalls ein Topos, dem man sich widmen muss. Hier lässt DALL-E 3 keine Wünsche offen. Wo zeigt sich, zusammengefasst, die Schönheit der Mädchen und Frauen? Am Gesicht (volle Lippen; klare Augen; gesunde Haut), am Kopf (wohlgeformter Hinterkopf; dicke, lange Haare), an der Figur (wohlgerundeter Hintern; schlanke Arme; lange Beine). Oft gelingt auch – anders als bei Robotern – das Lächeln, das – wie bei diesem Beispiel – ebenso verheißungsvoll wie selbstbewusst sein kann.

Abb.: Eine Schönheit am Strand (Bild: DALL-E 3)

DALL-E 3 und das Wasser

DALL-E 3 beweist immer wieder, dass es mit Wasser gut zurechtkommt. So wirken Wellen oft sehr echt, wie bei dieser und dieser Skaterin – die Figuren selbst bzw. die Gesichter sind weniger gelungen. Natürlich gehören die Skaterinnen nicht in dieses Element, aber ein Reiz von Bildgeneratoren ist es, imaginäre Welten zu erschaffen. Eine kleine Testreihe am 13. Oktober 2023 diente dazu, die Darstellung verschiedener Gewässer zu erkunden. Ins Rennen geschickt wurden zwei Frauen im Wettkampf miteinander. Sie schwammen nebeneinander im Meer, im See, im Pool und im Fluss. Alle vier Bilder sind sehenswert, wenn auch etwas künstlich, was sich vor allem an Haaren und Gesichtern zeigt. Wie immer werden Frauen als Schönheiten dargestellt. Das Wasser beeindruckt durch Spiegelungen, Lichtreflexe, Gischt. Man sieht, wie es an den Körpern haftet und herunterperlt. Auf dem hier gezeigten Bild fällt der Dunst im Hintergrund ins Auge. Eine Lagune als Ort des Geschehens lehnte DALL-E 3 zunächst ab. Als der „Wettkampf“ aus dem Prompt entfernt wurde, ging es weiter. Zu sehen waren zwei Asiatinnen in einer Lagune. Etwas unheimlich die Hände und Arme, die nicht alle zu ihnen gehören schienen. Zwei andere Schönheiten auf einem anderen Bild standen im Wasser und blickten zum Ende der Lagune. Ein letzter Versuch widmete sich Schwimmerinnen unter einem Wasserfall. Dabei entstanden bemerkenswerte Bilder. Zwei farbige Frauen schossen regelrecht aus dem Wasserfall heraus. Zwei Blondinen bewegten sich – jede kam von ihrem eigenen Wasserfall – in gefährlicher Weise aufeinander zu. Man spürt die Kraft des Wassers, dort, wo es hinabstürzt, und dort, wo es sich sammelt. Ein Test vom 10. Oktober 2023 widmete sich dem Sport – und ging am Rande auch auf Wasser ein.

Abb.: Der Wettkampf im See (Bild: DALL-E 3)

DALL-E 3 und der Sport

DALL-E 3 beweist immer wieder, dass es mit Bewegungen gut zurechtkommt – von tierischen und menschlichen Körpern, von Gegenständen aller Art sowie von Wasser – so wirken Wellen oft sehr echt. Damit sollte es auch möglich sein, eindrucksvolle Darstellungen von Sportdarbietungen zu schaffen. Ein erster Versuch wird dem Beachvolleyball gewidmet. Wie es die Regel bei dem Bildgenerator ist, sind die Frauen sehr gut gebaut, haben hübsche Gesichter und lange Haare. Bei dem gezeigten Bild gilt dies besonders für den Vordergrund – der Hintergrund wird weniger ausgearbeitet, und eines der Gesichter ist etwas verzogen. Insgesamt ist wenig Bewegung zu sehen, auch bei einer Alternative nicht. Eine Ausnahme ist dieses Bild. Weitere Versuche schlagen fehl – DALL-E 3 ist nun plötzlich der Meinung, dass die Bilder nicht seinen Richtlinien entsprechen. Erst als der Prompt vorsieht, dass die Frauen Jeans tragen sollen, geht es weiter – mit brünetten Klonen auf dem Spielfeld. Weitere Sportarten sind Hochsprung und Stabhochsprung. Beim Hochsprung werden auch Bilder generiert, die eher dem Weitsprung oder dem Dreisprung zuzurechnen sind. Beim Stabhochsprung geht einiges schief. Eine Athletin wird von ihrem Stab durchbohrt. Eine andere ist dicht vor einer doppelten Stange, die bis weit in den Hintergrund reicht, fast bis zu einem dort befindlichen Gebäude. Immerhin kommt mehr Bewegung auf. Ein letzter Versuch bezieht wieder das Wasser ein. Die Surferin beeindruckt mit Positur und Dynamik. Sie ist ebenso in Bewegung wie das Wasser, das sie für ihren Sport benutzt.

Abb.: Frauen beim Beachvolleyball (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil X

Eigentlich war die Testreihe mit DALL-E 3 schon abgeschlossen. Aber Prof. Dr. Oliver Bendel wollte nochmals wissen, ob der Bildgenerator „versteht“, was „auf dem Mond“ bedeutet. Auf bisherigen Ergebnissen war immer nur der Mond irgendwo zu sehen, und die Szene spielte sich auf einem Meteoriten oder wo auch immer ab. Der Prompt am Morgen des 5. Oktober 2023 lautete: „A female skateboarder on the moon doing a daring stunt, photorealistic“. Zuerst war der Eindruck, dass man endlich auf dem Mond gelandet war. Aber bei genauerem Hinsehen erkannte man, dass sich auch hier der Mond hinter dem Meteoriten oder einem Planeten erhebt. Bei den anderen Ergebnissen war es noch deutlicher (eine Serie mit dem Mars beweist, dass es anders geht, wie auch dieses etwas kitschige Einzelbild). Das Bild gefällt dennoch durch die Bewegung der Skaterin, ihre ungewöhnliche Haltung – vermutlich wird sie gleich in den Staub des Trabanten fallen, hoffentlich nicht auf den Stein – und ihren Schattenwurf. Spuren der Fahrt sind nicht zu sehen, aber vielleicht war es überhaupt mehr ein Gleiten über der Oberfläche als auf der Oberfläche (sehenswert übrigens auch eine Serie auf dem Wasser). Bei den vier Kacheln fällt weiter auf, dass drei europäisch anmutende Skaterinnen zu sehen sind und eine asiatische Schwester. Das ist nicht ganz divers, aber immerhin ein Anfang. Damit ist die Serie nun wirklich abgeschlossen. Die Nutzung von DALL-E 3 hat auf jeden Fall großen Spaß gemacht. Und sie zeigt, dass KI-Systeme und insbesondere Bildgeneratoren wirklich – wie Oliver Bendel im Frühjahr 2023 bei „Scobel“ behauptet hat – Schönheit produzieren können.

Abb.: Die Skaterin vor dem Mond (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil IX

Zum Abschluss der neunteiligen Serie von Oliver Bendel ein Taucher, der sich durch einen Fischschwarm bewegt. Eigentlich war bei DALL-E 3 am 3. Oktober 2023 ein Schnorchler (m/w/d) angefordert worden, aber auf dem Rücken trägt er etwas, was an eine Sauerstoffflasche erinnert. Bei den Alternativen wird dies noch deutlicher. Die Tiefe des Bilds gefällt, zudem der Lichteinfall von oben. Die Fische sind Individuen trotz ihrer Ähnlichkeit, neugierig und zugewandt. Das ist zugleich das Merkwürdige – ein echter Schwarm würde sich anders bewegen, auch wenn ein Mensch mitten in ihm ist. Das wirft die Frage auf, wie wir künftig Natur und speziell Pflanzen und Tiere wahrnehmen werden, wenn Bildgeneratoren ein verzerrtes Bild ihrer Individuen und Strukturen entwerfen. Das ist sicherlich kein neues Problem, denn es gibt seit jeher Illustrationen, die mehr oder weniger passend sind. Dennoch ist es die Fülle an Material, das meist deutlich neben der Realität steht, die diese so weit verrücken könnte, dass wir die Virtualität bevorzugen. Insgesamt beeindruckt DALL-E 3 mit seinen Ergebnissen, die im Rahmen dieser Tests freilich mehr oder weniger Zufälle sind. Die Lücke zu Midjourney scheint geschlossen. Das Wettrennen der Firmen geht weiter.

Abb.: Im Meer unterwegs (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil VIII

Schönheit war einem schon in mehreren Bildern von DALL-E 3 begegnet, von Menschen und Dingen. Auch den jungen Mann der letzten Darstellung mögen einige attraktiv finden. Bei den Tests taucht kaum Hässlichkeit auf, außer im Kitsch. Manchmal sind beide im Widerstreit auf einem einzigen Bild. In diesem, das von Oliver Bendel noch am 3. Oktober 2023 angefertigt wurde, zeigt sich eine pubertierende Schönheit inmitten von opulenter Blumenpracht. Der Prompt hatte gelautet: „Blonde teenage girl lies prone on blanket in garden, thousands of colorful flowers grow at edge of garden, photorealistic“. Von Schönheit war also keine Rede gewesen – aber diese Protagonistin und ihre Altersgenossinnen würden Angela Hayes in „American Beauty“ blass aussehen lassen, selbst für Lester Burnham. Ob man die Gesamtkomposition in ästhetischer Hinsicht durchgehen lassen will, ist eine andere Frage. Zur allgemeinen, fast erdrückenden Pracht bildet immerhin die graue, schlichte Decke einen Widerpart. Und auch der kurze Rasen wird schon andere Zeiten gesehen haben, in denen sich lediglich Igel und Amseln auf ihm bewegten. Wobei diese durchaus Schönheit bedeuten können, die Schönheit der Natur und des Natürlichen. Das Künstliche legt sich auch in diesem Bild wie ein Schleier über alles.

Abb.: Ein Teenager inmitten von Blumen (Bild: DALL-E 3)

Springer VS scheitert mit KI-generiertem Werk

Tai Tan Mai, Martin Crane und Marija Bezbradica von der Dublin City University veröffentlichten im Sommer 2023 bei Springer VS das Buch „Educational Data Mining und Learning Analytics: Ein maschinell generierter Forschungsüberblick“. Dessen Ziel ist es, einschlägige Artikel von Forschern zusammenzufassen. Es wird z.B. in der Schweiz in der gedruckten Version für 88.50 CHF angeboten. Stutzig macht bereits die Rubrik „About this book“, die orthografische und grammatikalische Fehler enthält. Wenn man durch das Buch blättert, kommen einem ständig solche Passagen entgegen: „Unter allen für die Bildung verfügbaren digitalen Ressourcen sind Massive Open Online Courses. (MOOC) als großartige Online-Tools, die den Lernprozess für jede Art von Inhalt erleichtern können.“ Über weite Strecken ergibt das Buch keinerlei Sinn. Das ist aber nicht das einzige Problem. Professor Marco Kalz von der Pädagogischen Hochschule Heidelberg meldete sich am 15. September 2023 auf LinkedIn mit einem Artikel, in dem er einen Plagiatsverdacht äußerte: „After reading the text more intensively, which should be a summary of our paper according to the introduction, I had the impression that the text itself is not a summary, but a direct translation of our original publication. This left me really confused and I translated the so-called summary back into English to see that my initial impression was right. A large proportion of text is not summarized but just translated and put into this chapter without quoting the original text.“ Nach seiner Darstellung konfrontierte er den Verlag und die Autoren mit seinen Befunden, allerdings ohne Erfolg. In dem Artikel, der auch auf seiner Website unter dem Titel „AI destroys principles of authorship. A scary case from educational technology publishing.“ zu finden ist, nimmt er ausführlich Stellung zu dem Fall. Die drei Herausgeber schreiben in ihrem Vorwort: „Ein besonderer Dank gilt auch den Mitarbeitern von Springer Nature für ihre Mitarbeit bei der Erstellung des vorliegenden Werks.“ Um wen es sich dabei handelt, ist nicht ersichtlich – Lektoren sind nicht aufgeführt. Insgesamt muss man eher von einem Machwerk sprechen. Springer VS ist mit diesem KI-generierten Buch in jeder Hinsicht gescheitert.

Abb.: So stellt sich Ideogram das Cover vor

Macht künstliche Intelligenz uns freier?

Das neue Philosophie Magazin (Oktober/November 2023) wartet mit dem Dossier „Macht künstliche Intelligenz uns freier?“ auf. Dominik Erhard schreibt über „das neue Feuer“. Künstliche Intelligenz rufe oft zwei grundsätzlich unterschiedliche Reaktionen hervor. Die Schriftstellerin Meghan O’Gieblyn wird im Artikel von Stefania Gherca mit dem Satz „KI ist unser kollektives Unbewusstes“ zitiert. Künstliche Intelligenz boome in Industrie und Forschung, bestimme immer mehr unseren Alltag und stelle unser menschliches Selbstverständnis als Krone der Schöpfung infrage. Antonia Siebeck hat für „Küss mich, KI!“ den Technikphilosophen Oliver Bendel befragt. Im Teaser heißt es: „Der Fortschritt der Technik lässt unsere Beziehungen nicht unberührt: Sexroboter offerieren neue Formen der Befriedigung …“ (Philosophie Magazin, Oktober/November 2023). Der Germanist und Philosoph Richard David Precht fragt mit Blick auf KI: „Das Ende der Mühsal?“ Im Teaser heißt es: „Künstliche Intelligenz steigert alte Ängste: Uns geht die Arbeit aus! Die Maschinen werden uns beherrschen! Dabei liegt in der technischen Entwicklung eine Chance, die schon Karl Marx formulierte. Um sie zu nutzen, müssten wir die Gesellschaft neu denken.“ (Philosophie Magazin, Oktober/November 2023) Frederike Kaltheuner und Friedrich Weißbach beschäftigen sich in „Intelligent töten?“ mit KI in der militärischen Praxis. Weitere Informationen über www.philomag.de.

Abb.: An der Costa de la Luz

Podcast zu ethischen Implikationen generativer KI

Mit generativer KI (engl. „generative AI“) beschäftigt sich Prof. Dr. Oliver Bendel seit 2019, schon damals mit Blick auf Roboter. In dem von ihm herausgegebenen Band „Maschinenliebe“ geht einer seiner Autoren, Kino Coursey von Realbotix, auf die Verwendung von Sprachmodellen bei sozialen Robotern wie Harmony ein. Es folgten weitere Artikel in diesem Kontext, etwa „Die Mächtigkeit von Sprachmodellen: Anwendungsmöglichkeiten für Service- und Industrieroboter“, erschienen im Frühjahr 2023 in messtec drives Automation. 2023 war Oliver Bendel zu Gast bei „Scobel“ zu diesem Thema, u.a. zusammen mit Doris Weßels, und Referent an der TU Darmstadt. Für Ende 2023 und Anfang 2024 sind weitere Papers und Buchbeiträge geplant, u.a. bei Kohlhammer und Schäffer-Poeschel und in AI & Society. Christoph Holz, ein Podcaster, unterhielt sich mit dem Informations- und Maschinenethiker über verschiedene Themen in den Bereichen Soziale Robotik, Künstliche Intelligenz und Ethik. Die erste Folge „Maschinenliebe aus philosophischer Sicht“ wurde am 19. Juli veröffentlicht, die zweite mit dem Titel „Ethische Implikationen generativer KI“ am 6. September 2023. Beide können über Spotify abgerufen werden.

Abb.: So stellt sich Ideogram Brigitte Bardot als Roboter vor

Künstliche Intelligenz und Robotik beim CAS Zukunftsorientierte Polizeiarbeit

„Das CAS Zukunftsorientierte Polizeiarbeit vermittelt das notwendige Wissen und Verständnis, um die moderne Polizeiarbeit in ihrer Komplexität zu erfassen und mitzugestalten, die sich wandelnden Anforderungen an den Berufsalltag mitzutragen und jederzeit professionell handeln zu können. Es legt die Basis zum Verständnis der heutigen digitalen Komponenten im Beruf und bereitet die Absolventinnen und Absolventen auf die digitale Zukunft vor. Es behandelt die Auswirkungen der Digitalisierung auf die Polizeiarbeit und die polizeiliche Selbstreflexion. Die Teilnehmerinnen reflektieren Veränderungen, die sich für das Verständnis von Kriminalität im digitalen Raum ergeben.“ So lautet die Beschreibung der Weiterbildung an der Hochschule für Wirtschaft FHNW, die am 3. März 2023 gestartet ist. Prof. Dr. Oliver Bendel verantwortet die Kurse „Sicherheit und Überwachung“ und „Künstliche Intelligenz“. Beim zweiten Kurstag am 2. September 2023 wird ausführlich auf Grundlagen und Anwendungen der Künstlichen Intelligenz sowie auf Roboter in der Polizeiarbeit eingegangen. Zudem findet eine ethische Reflexion statt. Im August 2022 trug der Informations- und Maschinenethiker auf der Robophilosophy 2022 über Polizeiroboter vor. Sein Beitrag „Robots in Policing“ ist Ende des Jahres im Proceedingsband „Social Robots in Social Institutions“ erschienen. Weitere Informationen zum CAS über https://www.fhnw.ch/de/weiterbildung/wirtschaft/cas-zukunftsorientierte-polizeiarbeit.

Abb.: Auch diese Einteilung wird im CAS präsentiert

KI-basierte Textgeneratoren aus Sicht von Informationsethik und Maschinenethik

Die Tagung „KI – Text und Geltung. Wie verändern KI-Textgeneratoren wissenschaftliche Diskurse?“ findet am 25. und 26. August 2023 an der TU Darmstadt statt. Prof. Dr. Oliver Bendel referiert am ersten Tag zum Thema „KI-basierte Textgeneratoren aus Sicht von Informationsethik und Maschinenethik“. Dabei ist die Informationsethik – zusammen mit anderen Bereichsethiken – die Disziplin, die sich Künstlicher Intelligenz, Maschinenethik und Maschinellem Bewusstsein zuwendet. Die Maschinenethik, die von ihr betrachtet wird, arbeitet inzwischen auch mit Sprachmodellen wie GPT, etwa im Zusammenhang mit Constitutional AI. Oliver Bendel versteht sie eher technisch, zwischen Philosophie und Informatik bzw. Robotik angesiedelt, mit deutlicher Nähe zu den letzteren Disziplinen. Aber natürlich ist sie auch selbst eine Perspektive, die zur ethischen Reflexion beitragen kann, etwa wenn sie danach fragt, ob sich Maschinen als solche zu erkennen geben oder wie sie bei Dilemmata entscheiden sollen. Das Programm kann hier abgerufen werden.

Abb.: Auch Pepper wurde schon mit ChatGPT verbunden

Taugen Sprachmodelle für die Spracherhaltung?

Vom 1. März bis 11. August 2023 erstellte Dali Jabou im Rahmen seiner Bachelorarbeit den Chatbot @llegra, mit dem man im rätoromanischen Idiom Vallader kommunizieren kann. Es handelt sich um ein von Prof. Dr. Oliver Bendel initiiertes und finanziertes Low-Budget-Projekt, für das bisher ca. 300 CHF ausgegeben wurden. Die Ausgangsfrage ist, ob sich Sprachmodelle wie GPT für den Bau von Chatbots eignen, die tote, gefährdete oder ausgestorbene Sprachen beherrschen, und ob sie für die Spracherhaltung taugen (etwa im Rahmen des Unterrichts). Mit @llegra entstand ein Chatbot mit Sprachausgabe, der die Stärken und Schwächen von GPT-4 widerspiegelt. Er verfügt über Weltwissen und gibt mehrheitlich korrekt Auskunft, auch zu Einrichtungen im Unterengadin. Manchmal halluziniert er und erfindet Personen oder Werke – ein bekanntes Problem von Sprachmodellen, an dem die Entwickler bei OpenAI, Microsoft, Google und Co. arbeiten. Ein weiteres Problem ist, dass er manchmal vom Idiom abweicht und sich in Sursilvan und Rumantsch Grischun verirrt. Er wird sich weiter verbessern lassen, sobald man GPT-4 (wie im Falle von GPT-3) direkt mit Sprachmaterial trainieren kann – was noch nicht der Fall ist (eine Wissensdatenbank, angereichert mit Vallader-Kinderbüchern, zur Verfügung gestellt von der Lia Rumantscha, war aber hilfreich). Die Text-to-Speech-Engine für Vallader, die von SlowSoft kostenlos zur Verfügung gestellt wurde, erfüllt ihren Zweck. Man darf sie nicht mit einer professionellen Lösung verwechseln, wie sie heute mit Hilfe von Machine Learning möglich wäre. Der Chatbot stand auf allegra-bot.ch zur Verfügung, damit eingeladene Tester unkompliziert darauf zugreifen und auch Versuche im Feld (etwa direkt im Unterengadin) stattfinden konnten. Nachdem mehrere Medien über den Chatbot berichtet und den Link verbreitet hatten, nahmen die Zugriffe stark zu. Um die Kosten nicht zu stark anwachsen zu lassen und deutlich zu machen, dass es sich um ein wissenschaftliches Projekt und eine unfertige Vorstufe – einen Prototyp – handelt, nicht um einen öffentlichen Dienst und nicht um ein fertiges Produkt, wurde der Chatbot mit einer entsprechenden Information auf der Seite am 11. August vorerst stillgelegt. Er wird intern weiter getestet und verbessert, bis er Ende des Jahres (sofern die Annahme erfolgt) auf einer internationalen Konferenz vorgestellt wird. Im Rahmen der Begutachtung findet eine Freischaltung von September bis Dezember statt. Oliver Bendel wünscht sich, dass weitere Entwickler den Ansatz aufgreifen und irgendwann eine @llegra entsteht, die im Unterricht eingesetzt werden kann. Dafür müssten Unternehmen die Sache in die Hand nehmen, oder es müsste ein finanziertes Forschungs- und Entwicklungsprojekt aufgelegt werden. In letzterer Richtung unternimmt die FH Graubünden, mit der man in Kontakt ist, seit einiger Zeit Anstrengungen. Bei der Abschlusspräsentation der Bachelorarbeit am 11. August waren neben einer Vertreterin dieser Hochschule auch zwei Vertreter der Lia Rumantscha zugegen, die sich beeindruckt zeigten und wohlwollend äußerten. @llegra hat eine Zukunft – wenn man dies im rätoromanischen Sprachraum will.

Abb.: So stellen sich Bildgeneratoren Chatbots vor

Der Diebstahl der Stimme

Erneut berichten Schweizer Medien über Trickbetrug mit synthetisierten Stimmen lebender Personen. Die Basler Zeitung interviewte am 7. August 2023 Prof. Dr. Oliver Bendel dazu, wie solche synthetischen Stimmen entstehen. Er forscht seit einem Vierteljahrhundert zu KI-Systemen und Robotern und seit sieben Jahren speziell auch zu synthetischen Stimmen. Grundsätzlich werden in solchen Fällen neuronale Netzwerke benutzt. Man kann sie mit der individuellen Stimme trainieren. Dafür braucht es 15 – 30 Minuten an Material. Die Zeit verkürzt sich auf wenige Sekunden, wenn man vorher ein Sprachmodell mit einigen tausend Stimmen trainiert hat und einige Voraussetzungen erfüllt sind. Zu diesen Voraussetzungen gehört, dass die individuelle Stimme einen Verwandten im Trainingsmaterial hat. Die Resultate können so oder so täuschend echt sein. Oft sind aber nicht die gewohnten Hintergrundgeräusche vorhanden, oder es fehlen typische Verhaltensweisen der Person, etwa das Nasehochziehen oder ein Stühlerücken. Es lohnt sich also, gut hinzuhören und im Zweifel auch einen Rückruf zu verlangen. Mehrere Aussagen aus dem Interview wurden in den Beitrag „Betrüger können mit KI die Stimmen lebender Personen imitieren“ aufgenommen, der am 9. August 2023 in der gedruckten Ausgabe der Basler Zeitung erschien. Bereits am Vortag war er in die Onlineauftritte von Tamedia aufgenommen worden.

Abb.: Stimmen kann man an vielen Orten stehlen

Die KI ist ein Werkzeug

Das Schweizer Magazin Bref hat im Juni 2023 ein Interview mit Prof. Dr. Oliver Bendel abgedruckt. Es geht darin u.a. um künstliche Intelligenz, etwa um Sprachmodelle, die ChatGPT und Bildgeneratoren wie DALL-E zugrunde liegen – und eigenen Projekten wie @ve und @llegra. Mit diesen Chatbots sollen tote und gefährdete Sprachen wiederbelebt bzw. gerettet werden. In früheren Projekten pflanzten die Teams um Oliver Bendel den Chatbots im Kontext der Maschinenethik vor allem moralische Regeln ein. Gegen Ende des Interviews heißt es: „Wir sollten immer daran denken: Die KI ist ein Werkzeug. Wir haben es geschaffen und wir haben die Macht, es zu gestalten und zu kontrollieren. Als Maschinenethiker habe ich dafür gesorgt, dass unseren Chatbots moralische Regeln eingepflanzt werden, an die sie sich strikt halten. Sie erkennen Probleme des Benutzers, die wir vorausgesehen haben, verhalten sich ihm gegenüber moralisch adäquat und machen immer wieder deutlich, dass sie nur Maschinen sind. Das alles ist sehr verlässlich.“ Das Interview kann über brefmagazin.ch/artikel/der-digitale-graben-wird-durch-die-ganze-welt-gehen/ aufgerufen werden.

Abb.: Der Maschinenethiker Oliver Bendel (Foto: Shift/Louis Rafael)

DeepL verwendet gegenderte Sprache

DeepL gilt als eines der besten Übersetzungstools der Welt. Tatsächlich schneidet es in vielen Tests und Vergleichen besser ab als Google Translate und Co. Allerdings stellt sich die Frage, welche Regeln die Firma aus Köln im Deutschen umsetzt. Wenn man einen englischen Text hat, in dem der „user“ vorkommt, kann es sein, dass dieser mit „NutzerInnen“ übersetzt wird. Dieses Wort mit Binnen-I existiert aber nicht in der deutschen Sprache. Es handelt sich um gegenderte Sprache, um eine Fantasiesprache einer bestimmten Gruppe. Der Rechtschreibrat lehnt diese Schreibweise ebenso ab wie „Nutzer*innen“, „Nutzer:innen“ oder „Nutzer_innen“. Wenn aber ein Übersetzungstool nicht der amtlichen Rechtschreibung folgt, verfehlt es letztlich seinen Sinn und Zweck. Diejenigen, die es besser wissen, müssen den Text nachkorrigieren, und diejenigen, die es nicht besser wissen, bekommen eine falsche Sprache aufgedrängt. Ähnliches lässt sich bei DeepL Write beobachten, dem Redigiertool der gleichen Firma. „Die Ärzt*innen“ wurde bei einem Test als korrekt angesehen, obwohl diese Schreibweise in der amtlich fixierten Sprache nicht existiert. Erst als zweite Alternative wurde „Ärztinnen und Ärzte“ unterbreitet. Hier wäre übrigens „Ärzte und Ärztinnen“ vorzuziehen, wenn man zuerst die am wenigsten komplexe Form aufführen will. Ob sich das deutsche Unternehmen mit seiner politisch-moralischen Positionierung einen Gefallen tut, darf bezweifelt werden. Dass es alles andere als professionell verfährt, ist offensichtlich.

Abb.: Ein scherzhaft verwendeter Genderstern in Zürich

Aus Oasis wird AISIS

Oasis war eine erfolgreiche britische Band, die 1991 gegründet und 2009 aufgelöst wurde. Mit Hilfe von künstlicher Intelligenz wurde sie nun wieder zum Leben erweckt. Das Projekt stammt von der Band Breezer. Sie nahm neue Lieder auf, die sie mit der KI-Stimme des Oasis-Frontmanns Liam Gallagher ergänzte. Dies berichtete Golem am 28. April 2023. Dabei wurde nach Angaben des Magazins das KI-System lediglich dafür eingesetzt, den Klang von Liam Gallaghers Stimme zu imitieren. Der Gesang samt den Modulationen stammt von einem anderen Sänger. „Das Ergebnis der KI-Bearbeitung, aber auch die Leistung der Musiker ist beeindruckend: Die Songs gehen ohne weiteres als Oasis-Songs der späten 1990er Jahre durch.“ (Golem, 28. April 2023) Das Album „AISIS – The Lost Tapes/Vol. 1“ kann u.a. über YouTube aufgerufen werden.

Abb.: Eine Band bei ihrem Auftritt

Erfolgreiche Durchführung der Shift 2023

Am 20. April 2023 fand die Shift statt, eine Tagung zu Fragen von Informationsethik, Roboterethik und KI-Ethik. Initiatorin und Organisatorin ist Cornelia Diethelm. Moderatorin war wieder Patrizia Laeri. Die Keynote hielt Prof. Dr. Oliver Bendel aus Zürich. Er ging zunächst auf soziale Roboter ein und auf die Disziplinen Künstliche Intelligenz, Maschinenethik und Maschinelles Bewusstsein. Dann beschrieb er mehrere soziale Roboter, die auch als Serviceroboter im engeren Sinne eingesetzt werden. Auf dieser empirischen Basis stellte er ethische Überlegungen an. Am Ende behandelte er Sprachmodelle wie GPT-3 bzw. GPT-4 und PaLM-E. Er zeigte, wie soziale Roboter und Serviceroboter von diesen profitieren können, in ihrer Sprachfähigkeit und bei ihrer Wahrnehmung der Welt. Auch Ansätze der Maschinenethik waren ein Thema, von der Einpflanzung moralischer Regeln bis hin zur Nutzung von Moralmenüs. Ein Panel zur Regulierung von KI durch die EU fand am Nachmittag statt. Dabei stach die Schweizer Informatikerin und Unternehmerin Bea Knecht hervor, die nicht nur enorme fachliche Expertise hatte, sondern auch herausragende Reflexionsfähigkeiten – und eine genaue und anschauliche Sprache. Weitere Informationen zur Shift über digitalresponsibility.ch/digitaleethikkonferenz/

Abb.: Oliver Bendel im Gespräch mit Patrizia Laeri (Foto: Shift/Louis Rafael)

KI-generierter Song à la Drake und The Weeknd

Auf TikTok findet sich ein neuer Musikclip der beiden kanadischen Sänger Drake und The Weeknd. Golem meldete am 17. April 2023: „Der Titel wurde vom Kanal ghostwriter977 veröffentlicht und ist eigenen Angaben zufolge komplett mithilfe einer künstlichen Intelligenz erstellt worden.“ (Golem, 17. April 2023) Das einminütige Stück hat es inzwischen auf YouTube geschafft, in der ursprünglichen – nach zwei Tagen bereits mehr als tausendmal kommentiert – und in einer verbesserten Version. Beide hat man allerdings wohl aus Rechtsgründen entfernt. Golem schreibt weiter: „Für die Musikindustrie dürften derartige Musikstücke, die zumindest beim ersten und zweiten Hinhören sehr echt klingen, ein Problem sein. Drake hatte sich in der Vergangenheit bereits bei anderen KI-Songs mit seiner Stimme kritisch bis verärgert gezeigt. Der Produzent von Jay-Z, Young Guru, spricht von einem Geist, der aus der Flasche gelassen wurde. Zum einen könne man den technologischen Fortschritt nicht aufhalten, zum anderen müssten die Rechte der Kunstschaffenden geschützt werden.“ (Golem, 17. April 2023) Die individuelle Stimme, verbunden mit gesprochener Sprache, kann bereits seit einigen Jahren mit Hilfe künstlicher Intelligenz imitiert werden. Darauf geht etwa der Beitrag „The Synthetization of Human Voices“ von Prof. Dr. Oliver Bendel aus dem Jahre 2017 ein. Inzwischen stellt auch gesungene Sprache lebender und toter Künstler kein Problem mehr dar.

Abb.: Eine CD von The Weeknd

Von Halluzinationen befreit?

„Das Heidelberger KI-Start-up Aleph Alpha hat nach eigenen Angaben erstmals einen Meilenstein auf dem Weg zu inhaltlich korrekter, erklärbarer und vertrauenswürdiger künstlicher Intelligenz erreicht. Eine nun verfügbare Erweiterung des hauseigenen Sprachmodells Luminous sei in der Lage, Zusammenhänge in Informationen und faktische Korrektheit auf Basis von gesicherten Fakten nachzuvollziehen …“ (Spektrum, 13. April 2023) Dies schrieb Spektrum der Wissenschaft am 13. April 2023 unter Berufung auf das Unternehmen. „Gleichzeitig sei das System in der Lage, darzustellen, welche Textstellen in einer Quelle die generierte Antwort verursacht haben oder im Widerspruch dazu stehen.“ (Spektrum, 13. April 2023) ChatGPT ist dafür bekannt, dass es nicht nur in seinen Aussagen halluziniert, etwa wenn es Falschinformationen zu Personen liefert, sondern auch in seinen Verweisen – so werden URLs generiert, die auf den ersten Blick plausibel aussehen und deren Domain oft korrekt ist, die dann aber – da der Pfad erfunden ist – ins Leere verweisen. Grundsätzlich ist die Behauptung von Faktizität und der Erfüllung von Anforderungen der Explainable AI und der Trustworthy AI in diesem Zusammenhang mit Vorsicht zu genießen – aber es wäre erfreulich, wenn Luminous weniger eine Münchhausen-Maschine wäre als der eine oder andere Konkurrent und von Halluzinationen befreit werden könnte.

Abb.: Von Halluzinationen befreit?

Roboter und KI-Systeme bei der Shift

„Die Shift ist eine exklusive Plattform zur Digitalen Ethik. Was begeistert uns bei neuartigen Angeboten, die dank Big Data, Künstlicher Intelligenz & Co. möglich sind? Was akzeptieren Kundinnen und Kunden sowie die Gesellschaft, was nicht? Und wo sind Grenzen nötig? Diese Fragen stehen im Zentrum der Shift. Es geht um aktuelle Kundenerwartungen sowie Akzeptanz und Vertrauen im digitalen Raum.“ (Website Shift) So steht es auf der Website der Tagung, die 2023 bereits in die fünfte Runde geht. Die Keynote hält Prof. Dr. Oliver Bendel aus Zürich. Er geht zunächst auf soziale Roboter ein und auf die Disziplinen Künstliche Intelligenz, Maschinenethik und Maschinelles Bewusstsein. Dann beschreibt er mehrere soziale Roboter, die auch als Serviceroboter im engeren Sinne eingesetzt werden. Auf dieser empirischen Basis stellt er ethische Überlegungen an. Am Ende behandelt er Sprachmodelle wie GPT-3 bzw. GPT-4 und PaLM-E. Er zeigt, wie soziale Roboter und Serviceroboter von diesen profitieren können, in ihrer Sprachfähigkeit und bei ihrer Wahrnehmung der Welt. Auch Ansätze der Maschinenethik sind ein Thema, von der Einpflanzung moralischer Regeln bis hin zur Nutzung von Moralmenüs. Weitere Informationen zur Shift über digitalresponsibility.ch/digitaleethikkonferenz/

Abb.: ARI von PAL Robotics

Wie Sprachmodelle für die Steuerung von Haushaltsrobotern genutzt werden können

Forscher von Google und der TU Berlin haben am 6. März 2023 ein verkörpertes, multimodales Sprachmodell mit dem Namen PaLM-E vorgestellt, das virtuelle und physische Welt verbindet. So kann man per Spracheingabe einen Haushaltsroboter steuern und ihn dazu bringen, bestimmte Gegenstände zu holen oder andere Tätigkeiten zu verrichten. Der Prompt kann dabei vom Benutzer spontan aus seiner eigenen Beobachtung der Umwelt abgeleitet werden. Die Idee der PaLM-E-Architektur besteht laut Projektwebsite darin, kontinuierliche, verkörperte Beobachtungen wie Bilder, Zustandseinschätzungen oder andere Sensormodalitäten in den Spracheinbettungsraum eines vortrainierten Sprachmodells zu integrieren. Im Beispielvideo lautet die Instruktion in deutscher Übersetzung: „Bring mir die Reischips aus der Schublade“. Golem schreibt in einem Artikel: „Dazu analysiert Palm-E die Daten der Roboterkamera, ohne dass eine vorverarbeitete Szenendarstellung erforderlich ist. Damit entfällt die Notwendigkeit, dass ein Mensch die Daten vorverarbeitet oder kommentiert, was eine autonomere Robotersteuerung ermöglicht.“ (Golem, 10. März 2023) Im Video fährt der Roboter – ein Roboterarm auf einer mobilen Plattform, ganz ähnlich wie Lio – zur Schublade und entnimmt ihr die Packung. In dem Paper „ChatGPT for Robotics: Design Principles and Model Abilities“ von Microsoft-Forschern wird eine ähnliche Strategie verfolgt, wobei ChatGPT verwendet wird, das wiederum auf GPT-3 basiert. Allerdings handelt es sich um einen indirekten Ansatz, bei dem Code generiert wird. Das Paper zu PaLM-E kann hier heruntergeladen werden.

Abb.: Ein Roboterarm (Foto: F&P Robotics)

Das LLaMA kommt auf die Welt

Wie Golem am 25. Februar 2023 meldete, hat Meta das Sprachmodell LLaMA angekündigt. Dieses soll in Konkurrenz zu GPT-3 von OpenAI (ChatGPT) und LaMDA von Google (Bard) treten. „LLaMA ist nach Angaben von Meta für die Erstellung von Texten, die Führung von Chat-Gesprächen, die Zusammenfassung von schriftlichen Materialien und für komplexere Aufgaben wie das Lösen von mathematischen Problemen oder die Vorhersage von Proteinstrukturen geeignet. Das Modell wurde von Metas Fundamental AI Research Team entwickelt.“ (Golem, 25. Februar 2023) Das neue Sprachmodell werde derzeit nicht bei Plattformen wie Facebook oder Instagram verwendet. „Stattdessen solle es ausschließlich auf KI spezialisierten Forschern zur Verfügung gestellt werden, um diese bei ihrer Arbeit zu unterstützen.“ (Golem, 25. Februar 2023) Der Artikel „Facebook steigt in den KI-Markt ein“ kann hier abgerufen werden.

Abb.: Lamas in Peru