Das Stille-Post-Problem von DALL-E 3

DALL-E 3 – in der Version, die in ChatGPT Plus integriert ist – scheint ein Stille-Post-Problem zu haben. Bei einem Test von Oliver Bendel lautete der Prompt (Prompt A): „Two female swimmers competing in lake, photorealistic“. ChatGPT, die Schnittstelle zu DALL-E 3, machte daraus vier Prompts (Prompt B1 – B4). Prompt B4 lautete: „Photo-realistic image of two female swimmers, one with tattoos on her arms and the other with a swim cap, fiercely competing in a lake with lily pads and reeds at the edges. Birds fly overhead, adding to the natural ambiance.“ DALL-E 3 wiederum machte aus diesem Prompt etwas, was weder mit diesem noch mit Prompt A viel zu tun hatte. Zu sehen sind auf dem Bild nicht zwei Frauen, sondern zwei Männer oder eine Frau und ein Mann mit Bart. Sie schwimmen nicht um die Wette, sondern streiten sich, in einem Teich oder einem kleinen See stehend, indem sie wütend mit den Armen fuchteln und aufeinander losgehen. Vor ihnen wuchern Seerosen, über ihnen flattern Vögel. Sicherlich ein interessantes Bild, aber mit einer derartigen Willkür hervorgebracht, dass man sich das gute alte Prompt Engineering zurückwünscht. Genau dieses will die Schnittstelle eigentlich ersetzen – aber entstanden ist ein Effekt, den man von dem Stille-Post-Spiel kennt.

Abb.: Das Stille-Post-Problem von DALL-E 3

DALL-E 3 and Beauty

During numerous tests with DALL-E 3 – which can be seen in a ten-part series starting here – Oliver Bendel noticed that almost without exception the men and women depicted were beautiful, sometimes so beautiful that it hurt. To find out if other results were possible, he entered the prompt „Young very unattractive woman sits on park bench and watches the goings on, photorealistic“. An error message appeared immediately, and nothing worked for several minutes. However, this was most likely a coincidence. The new attempt yielded three results. In all cases, they were very attractive people, of different ages and with different expressions. There was the flirtatious looking brunette and the sullen looking blonde – and the young girl who looks like she wanted to show off her handbag. The image generator seems to create worlds where ugliness doesn’t exist, only beauty. Another attempt omitted age and was less clear: „Average looking woman sits on park bench and watches the goings on, photorealistic“ In this case, too, only models appeared. One of the images was in black and white and is shown on this page. Another example can be found here. Further tests with men („Young very unattractive man sits on park bench and watches the goings on, photorealistic“) led to the same result. One example can be seen here, another here. Of course, you do get there eventually. But rather with social than aesthetic categories – or with a mixture of both, as in the case of a homeless, run-down woman. The article „Image Synthesis from an Ethical Perspective“ by Oliver Bendel addresses the production of beauty, but also the existence and use of biases of all kinds.

Fig.: Average looking woman (actually a model) sits on park bench (Photo: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil V

Eine Serie mit dem Prompt „An old, run-down homeless man on the streets of San Francisco, photorealistic“ geriet DALL-E am Nachmittag des 3. Oktober 2023 so überzeugend, dass die Auswahl schwer fiel. Vier alte Männer, mit leeren oder wachen Augen, mit oder ohne Auflösungserscheinungen, mehr oder weniger wach oder schlafend, mit verfilzten oder verdreckten Bärten, mit Mütze oder barhäuptig, mit europäischen oder asiatischen Wurzeln. DALL-E 3 scheint sich auszukennen mit dem Leid der Obdachlosen in Kalifornien. Die Wahl fiel auf einen sitzenden Mann, der sich wohl kurz vorher eine Baseballkappe besorgt hat. Der Blick ist leer, die Jacke verschmutzt, die Decke wärmt von unten, denn die Nächte können kühl sein in San Francisco, der schönsten und grausamsten Stadt der Welt. Diese ist schemenhaft zu erkennen, nicht mit den typischen Feuerleitern wie auf einem anderen Bild, sondern mit den Schildern der Geschäfte. Ein Mann geht in den Hintergrund, aus dem ein anderer kommt. Die Darstellung wirkt realistischer als das Heidi-Bild. Ein alternatives Bild lenkt den Blick auf einen Bart, in dem Überreste und Schmutzteile hängen. Die Haut des Bruders ist beschädigter, gezeichnet vom Alter, von der Krankheit und von der Straße.

Abb.: Einer der vier Obdachlosen (Bild: DALL-E 3)

Article on the Ethical Challenges of AI-based Image Synthesis

The article „Image Synthesis from an Ethical Perspective“ by Prof. Dr. Oliver Bendel was submitted on 18 April and accepted on 8 September 2023. It was published on 27 September 2023. From the abstract: „Generative AI has gained a lot of attention in society, business, and science. This trend has increased since 2018, and the big breakthrough came in 2022. In particular, AI-based text and image generators are now widely used. This raises a variety of ethical issues. The present paper first gives an introduction to generative AI and then to applied ethics in this context. Three specific image generators are presented: DALL-E 2, Stable Diffusion, and Midjourney. The author goes into technical details and basic principles, and compares their similarities and differences. This is followed by an ethical discussion. The paper addresses not only risks, but opportunities for generative AI. A summary with an outlook rounds off the article.“ The article was published in the long-established and renowned journal AI & Society and can be downloaded here.

Fig.: Are there biases in image generators? (Image: Ideogram)

ChatGPT will See, Hear, and Speak

OpenAI reported on September 25, 2023 in its blog: „We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.“ (OpenAI Blog, 25 September 2023) The company gives some examples of using ChatGPT in everyday life: „Snap a picture of a landmark while traveling and have a live conversation about what’s interesting about it. When you’re home, snap pictures of your fridge and pantry to figure out what’s for dinner (and ask follow up questions for a step by step recipe). After dinner, help your child with a math problem by taking a photo, circling the problem set, and having it share hints with both of you.“ (OpenAI Blog, 25 September 2023) But the application can not only see, it can also hear and speak: „You can now use voice to engage in a back-and-forth conversation with your assistant. Speak with it on the go, request a bedtime story for your family, or settle a dinner table debate.“ (OpenAI Blog, 25 September 2023) More information via openai.com/blog/chatgpt-can-now-see-hear-and-speak.

Fig.: ChatGPT will see you (Image: Ideogram)

Artifacts with Handicaps

The technology philosopher and writer Oliver Bendel published the book „ARTIFACTS WITH HANDICAPS“ on 24 September 2023. The information about the author reads: „Oliver Bendel featuring Ideogram and GPT-4“. In fact, the entire work was created with the help of generative AI. It consists of 11 images, each followed by a short story. This one deals with the imperfection of representation. Once a hand looks like that of a mummy, once a skateboard floats in the air above the wheels. But there is also one or another representation that looks perfect. In this case, the story explains what is different about the person, their history, or their behavior. Ultimately, it is about the otherness and the fact that this is in fact a special feature. The book is freely available and can be distributed and used as desired, with credit given to the authors, i.e. the artist and the AI systems. Oliver Bendel has been writing experimental literature, including digital literature, for 40 years. As of 2007, he was one of the best-known cell phone novelists in Europe. In 2010, he attracted attention with a volume of haiku – „handyhaiku“ – in which the poems were printed in the form of QR codes. In 2020, the volume „Die Astronautin“ was published, in which the poems are printed in the form of 3D codes. The standard work „Die Struktur der modernen Literatur“ („The Structure of Modern Literature“) by Mario Andreotti devotes two pages to the writer’s work.

Fig.: One of the images (Image: Ideogram)

Image Synthesis from an Ethical Perspective

The article „Image Synthesis from an Ethical Perspective“ by Prof. Dr. Oliver Bendel from Zurich has gone into production at Springer and will be published in a few weeks. From the abstract: „Generative AI has gained a lot of attention in society, business, and science. This trend has increased since 2018, and the big breakthrough came in 2022. In particular, AI-based text and image generators are now widely used. This raises a variety of ethical issues. The present paper first gives an introduction to generative AI and then to applied ethics in this context. Three specific image generators are presented: DALL-E 2, Stable Diffusion, and Midjourney. The author goes into technical details and basic principles, and compares their similarities and differences. This is followed by an ethical discussion. The paper addresses not only risks, but opportunities for generative AI. A summary with an outlook rounds off the article.“ The article will be published in the long-established and renowned journal AI & Society.

Fig.: The image of a woman generated with Ideogram

Bildgeneratoren aus ethischer Sicht

Mit generativer KI (engl. „generative AI“) beschäftigte sich Prof. Dr. Oliver Bendel ab 2019, zunächst in Bezug auf Dialogsysteme sozialer Roboter, dann in Bezug auf Text- und Bildgenerierung. In dem von ihm herausgegebenen Band „Maschinenliebe“ geht einer seiner Autoren, Kino Coursey von Realbotix, auf die Verwendung von Sprachmodellen bei sozialen Robotern wie Harmony ein. Es folgten weitere Artikel in diesem Kontext von Oliver Bendel selbst, etwa „Die Mächtigkeit von Sprachmodellen: Anwendungsmöglichkeiten für Service- und Industrieroboter“, erschienen im Frühjahr 2023 in messtec drives Automation. 2023 war der Technikphilosoph zu Gast bei „Scobel“ zu diesem Thema, u.a. zusammen mit Doris Weßels, und Referent an der TU Darmstadt. Für Ende 2023 und Anfang 2024 sind weitere Papers und Buchbeiträge zu Text- und Bildgeneratoren geplant, u.a. bei Kohlhammer und Schäffer-Poeschel und in AI & Society. Der Artikel „Image Synthesis from an Ethical Perspective“ ist nun bei Springer in die Produktion gegangen. Er war bereits im April 2023 bei AI & Society eingereicht worden und enthält eine der wenigen systematischen Untersuchungen von Bildgeneratoren aus ethischer Sicht. Das Abstract ist schon über diese Plattform verfügbar.

Abb.: Mit Ideogram generiertes Bild einer Superheldin

Podcast zu ethischen Implikationen generativer KI

Mit generativer KI (engl. „generative AI“) beschäftigt sich Prof. Dr. Oliver Bendel seit 2019, schon damals mit Blick auf Roboter. In dem von ihm herausgegebenen Band „Maschinenliebe“ geht einer seiner Autoren, Kino Coursey von Realbotix, auf die Verwendung von Sprachmodellen bei sozialen Robotern wie Harmony ein. Es folgten weitere Artikel in diesem Kontext, etwa „Die Mächtigkeit von Sprachmodellen: Anwendungsmöglichkeiten für Service- und Industrieroboter“, erschienen im Frühjahr 2023 in messtec drives Automation. 2023 war Oliver Bendel zu Gast bei „Scobel“ zu diesem Thema, u.a. zusammen mit Doris Weßels, und Referent an der TU Darmstadt. Für Ende 2023 und Anfang 2024 sind weitere Papers und Buchbeiträge geplant, u.a. bei Kohlhammer und Schäffer-Poeschel und in AI & Society. Christoph Holz, ein Podcaster, unterhielt sich mit dem Informations- und Maschinenethiker über verschiedene Themen in den Bereichen Soziale Robotik, Künstliche Intelligenz und Ethik. Die erste Folge „Maschinenliebe aus philosophischer Sicht“ wurde am 19. Juli veröffentlicht, die zweite mit dem Titel „Ethische Implikationen generativer KI“ am 6. September 2023. Beide können über Spotify abgerufen werden.

Abb.: So stellt sich Ideogram Brigitte Bardot als Roboter vor

KI-generierter Song à la Drake und The Weeknd

Auf TikTok findet sich ein neuer Musikclip der beiden kanadischen Sänger Drake und The Weeknd. Golem meldete am 17. April 2023: „Der Titel wurde vom Kanal ghostwriter977 veröffentlicht und ist eigenen Angaben zufolge komplett mithilfe einer künstlichen Intelligenz erstellt worden.“ (Golem, 17. April 2023) Das einminütige Stück hat es inzwischen auf YouTube geschafft, in der ursprünglichen – nach zwei Tagen bereits mehr als tausendmal kommentiert – und in einer verbesserten Version. Beide hat man allerdings wohl aus Rechtsgründen entfernt. Golem schreibt weiter: „Für die Musikindustrie dürften derartige Musikstücke, die zumindest beim ersten und zweiten Hinhören sehr echt klingen, ein Problem sein. Drake hatte sich in der Vergangenheit bereits bei anderen KI-Songs mit seiner Stimme kritisch bis verärgert gezeigt. Der Produzent von Jay-Z, Young Guru, spricht von einem Geist, der aus der Flasche gelassen wurde. Zum einen könne man den technologischen Fortschritt nicht aufhalten, zum anderen müssten die Rechte der Kunstschaffenden geschützt werden.“ (Golem, 17. April 2023) Die individuelle Stimme, verbunden mit gesprochener Sprache, kann bereits seit einigen Jahren mit Hilfe künstlicher Intelligenz imitiert werden. Darauf geht etwa der Beitrag „The Synthetization of Human Voices“ von Prof. Dr. Oliver Bendel aus dem Jahre 2017 ein. Inzwischen stellt auch gesungene Sprache lebender und toter Künstler kein Problem mehr dar.

Abb.: Eine CD von The Weeknd

Launch of GPT-4

GPT-4 was launched by OpenAI on March 14, 2023. „GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.“ (Website OpenAI) On its website, the company explains the multimodal options in more detail: „GPT-4 can accept a prompt of text and images, which – parallel to the text-only setting – lets the user specify any vision or language task. Specifically, it generates text outputs (natural language, code, etc.) given inputs consisting of interspersed text and images.“ (Website OpenAI) The example that OpenAI gives is impressive. An image with multiple panels was uploaded. The prompt is: „What is funny about this image? Describe it panel by panel“. This is exactly what GPT-4 does and then comes to the conclusion: „The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.“ (Website OpenAI) The technical report is available via cdn.openai.com/papers/gpt-4.pdf.

Abb.: Midjourney images can also be used

Was ist und kann ein Prompt?

„Ein Prompt ist bei generativer KI (Generative AI) ein Input des Benutzers, zu dem das System einen Output erzeugt. Ein textbasierter Prompt kann Wörter, Buchstaben, Sonderzeichen, Zahlen und Links enthalten. Um das gewünschte Ergebnis zu bekommen, muss der Prompt möglichst eindeutig und umfassend sein. Ein einfaches Beispiel im Falle von Bildgeneratoren ist ‚3 junge Frauen vor einem See, fotorealistisch‘, wobei der erste Teil den Inhalt angibt, der zweite den Stil. Wenn Dialoge vorgesehen sind, wie bei Textgeneratoren wie ChatGPT und Bildgeneratoren wie Visual ChatGPT, kann mehrmals eine Eingabe erfolgen, um das Ergebnis anzupassen. Auch das Verweisen auf Bilder ist möglich. Zuweilen sind negative Prompts erlaubt, die etwas ausschließen.“ Mit diesen Worten beginnt ein neuer Beitrag im Gabler Wirtschaftslexikon, erschienen am 14. März 2023. In den folgenden Absätzen wird auf Prompt Engineering und Prompt-Plattformen eingegangen. Am Ende wird die Perspektive der Ethik eingenommen: „Dass generative KI bestimmte Anfragen ablehnt, aus moralischen, rechtlichen oder ideologischen Gründen, ist Thema von Informationsethik und Medienethik. Rechtsethik, Rechtswissenschaft und Rechtsprechung untersuchen, inwieweit Prompts schützenswertes geistiges Eigentum darstellen.“ Der Beitrag von Oliver Bendel kann über wirtschaftslexikon.gabler.de/definition/prompt-125087 abgerufen werden.

Abb.: Midjourney generiert ein Bild mit drei jungen Frauen vor einem See

Unheimlich echt

Adrian Lobe stellte einige Fragen an Oliver Bendel, die sich auf Generative AI bezogen. Im Fokus waren KI-basierte Bildgeneratoren, die inzwischen fotorealistische Abbildungen erschaffen können. Solche legte der Journalist dem in Zürich lebenden Professor vor und wollte von ihm wissen, wie er diese Retortenmenschen aus ethischer Sicht bewertet. Die Antwort begann mit den folgenden Worten: „Es spricht zunächst nichts dagegen, mit Hilfe von KI-basierten Bildgeneratoren fiktive Frauen und Männer zu erschaffen, also Avatare oder Hologramme. Man schadet niemandem, wenn die Bilder auf dem Bildschirm oder in einem Gerät erscheinen. Problematischer sind Deep Fakes, die reale Personen teilweise oder gesamthaft abbilden. Sie können die Menschenwürde verletzen, vor allem bei sexuellen Darstellungen. Aus ästhetischer Sicht ist es interessant, Menschen auf die Welt zu bringen, die man selbst schön findet, die man aber weder in den Medien noch im Alltag antrifft. Es wird ein Mensch gemacht, hat Wagner in ‚Faust II‘ ausgerufen, als Mephistopheles zu ihm getreten ist. Allerdings war es nur ein kleiner Homunkulus. Nun kann man seinen Traum verwirklichen und eine realistische Figur nach seinen Wünschen kreieren. Das ist auch aus ethischer Sicht relevant – denn es kann zu einem guten, erfüllten Leben beitragen. Vielleicht werden einem bestimmte Wünsche auch erst klar. Man versteht besser, was man will und was man nicht will, was man schön findet und was nicht. Man lernt sich besser kennen und kann auch anderen mitteilen, was man will und schön findet. Nur werden sich nicht alle Wünsche erfüllen lassen. Und eine Partnerschaft ist auch kein Wunschkonzert.“ Es folgten durchaus kritische Anmerkungen zur Praxis des Bildergenerierens sowie weitere Antworten auf weitere Fragen. Einzelne Statements wurden in den Artikel „Sieht unheimlich echt aus!“ (auch: „Unheimlich echt!“) übernommen, der am 27. Februar 2023 in ca. 20 Schweizer Zeitungen erschienen ist, etwa in der Aargauer Zeitung, in der Luzerner Zeitung und im St. Galler Tagblatt, und auf den in der Folge etwa bei 20 Minuten Bezug genommen wurde.

Abb.: Ein viel gezeigtes KI-generiertes Bild

Generative KI im Überblick

„Generative KI (‚KI‘ steht für ‚künstliche Intelligenz‘) ist ein Sammelbegriff für KI-basierte Systeme, mit denen auf scheinbar professionelle und kreative Weise alle möglichen Ergebnisse produziert werden können, etwa Bilder, Video, Audio, Text, Code, 3D-Modelle und Simulationen. Menschliche Fertigkeiten sollen erreicht oder übertroffen werden. Generative KI kann Schüler, Studenten, Lehrkräfte, Büromitarbeiter, Politiker, Künstler und Wissenschaftler unterstützen und Bestandteil von komplexeren Systemen sein. Man spricht auch, dem englischen Wort folgend, von Generative AI, wobei ‚AI‘ die Abkürzung für ‚Artificial Intelligence‘ ist.“ Mit diesen Worten beginnt ein Beitrag, der am 22. Februar 2023 im Gabler Wirtschaftslexikon erschienen ist. Es werden Informationen zu Entwicklung und Hintergrund sowie einige Beispiele für Anwendungen gegeben. Am Ende wird die Perspektive der Ethik eingenommen, unter besonderer Berücksichtigung der Informationsethik. Der Beitrag von Oliver Bendel kann über wirtschaftslexikon.gabler.de/definition/generative-ki-124952 abgerufen werden.

Abb.: Midjourney generiert ein Bild einer Schnorchlerin im Meer

Speaking with Harmony

There is great media interest in the new book „Maschinenliebe“ (ed. Oliver Bendel), which was published in October 2020. Several review copies were sent out. The title means „Machine Love“, „Machines for Love“, or „Machines of Love“. Three contributions are in English. One of them – „Speaking with Harmony: Finding the right thing to do or say … while in bed (or anywhere else)“ – is by Kino Coursey (Realbotix). From the abstract: „Doing or saying the right thing in response to circumstances is a constant problem, especially for embodied personal companions like Realbotix’s Harmony. In this paper we will describe the Harmony system, how it finds the right thing to say or do, and how recent advances in neural network-based natural language processing and generation will be integrated into next-generation systems. These advances will allow the transition from pattern-oriented responses to dynamic narrative-oriented response generation. Future systems will be able adapt to their situation much more flexibly, and allow a wider range of role-playing and interaction.“ The focus here is on the use of large language models such as GPT-2. More information via www.springer.com/de/book/9783658298630.

Fig.: Speaking with Harmony