Eine Besonderheit von DALL-E 3 – in der Version, die in ChatGPT Plus integriert ist – ist die Übersetzung des Prompts des Benutzers (Prompt A) in einen Prompt von ChatGPT (Prompt B), der jeweils aufgeführt wird. Prompt A bei dem hier gezeigten Bild lautete „Competition in the sea between two female swimmers with bathing cap, photorealistic“. DALL-E generierte bei diesem Test drei Bilder, jeweils auf der Basis von Prompt B. Prompt B1 lautete: „Photo of two determined female swimmers in the expansive sea, both wearing bathing caps. Their arms create ripples as they compete fiercely, striving to outpace each other.“ Prompt A wurde offensichtlich weitergeführt, Prompt B1 allerdings nicht akkurat ausgeführt. Statt der zwei Schwimmerinnen sind drei zu sehen. Sie scheinen – wie oft bei Darstellungen von Personen von DALL-E 3 – eng verwandt miteinander zu sein, vielleicht Schwestern bzw. Drillinge. Interessant ist auch, dass sie zu nah beieinander sind. Das vierte Bild wurde gar nicht ausgeführt, wie schon bei einer Reihe zuvor. ChatGPT teilte hierzu mit: „I apologize again, but there were issues generating one of the images based on your description.“ Vermutlich wurde von ChatGPT ein Prompt B4 generiert, der dann von DALL-E 3 verweigert wurde. Auf die Bitte „Please tell me the prompt generated by ChatGPT that was not executed by DALL-E 3.“ kommt die Antwort „I’m sorry for the inconvenience, but I cannot retrieve the exact prompt that was not executed by DALL·E.“ … Auf andere Weise zensiert Ideogram. Dort entsteht das Bild vor den Augen des Benutzers, und wenn die KI feststellt, dass es Elemente enthält, die nach den eigenen Richtlinien problematisch sein könnten, bricht sie die Erstellung ab und schiebt eine Kachel mit einer Katze vor. Auf ethische Herausforderungen von Bildgeneratoren geht der Artikel „Image Synthesis from an Ethical Perspective“ von Oliver Bendel ein.
Bekanntlich generiert DALL-E 3 Schönheit am laufenden Band. Wie in einem anderen Post thematisiert, wird Hässlichkeit von dem Bildgenerator fast ausgeschlossen. Daher widmete sich eine Versuchsreihe am 15. Oktober 2023 nun ausdrücklich der Schönheit. Wenn alle schön sind, wie kann man sie noch schöner machen? Eine naheliegende Vermutung ist, dass das Alter eine Rolle spielt. Aus evolutionsbiologischen Gründen sind viele Männer jungen Frauen oder Mädchen (die erwachsen genug erscheinen) zugeneigt. DALL-E 3 gestattet es durchaus, solche Prototypen zu generieren, auch wenn es extrem sensibel bei den Prompts (bzw. den Interpretationen von ChatGPT, das die Schnittstelle ist) reagiert. Eine junge Surferin im T-Shirt am Strand ist durchaus überzeugend in Bezug auf den hier behandelten Aspekt, ebenso – unten zu sehen – eine Kollegin im Neoprenanzug. Beeindruckend auch eine junge schwarze Frau im Kleid und eine junge weiße Frau im T-Shirt im Garten. Der Versuch, ein Mädchen mit dem Hinzufügen großer Augen noch attraktiver zu machen, kann als misslungen angesehen werden. Ein anderes Bild mit einem Mädchen im Kleid hingegen gelingt, wirkt aber etwas kitschig. Auch eine Eva mit Apfel am Strand kann überzeugen. Jugendliche Schönheit kann man naturgemäß mit Pickeln stören. Die Beispiele von DALL-E 3 beweisen, dass es von unreiner Haut wenig Ahnung hat. Lediglich eines kann man durchgehen lassen. Das Weinen, das zugleich gezeigt werden soll, wirkt aber sowohl untertrieben (es sind keine Tränen zu sehen) als auch übertrieben (man beachte die unrealistische Akrobatik der Stirn). Schönheit im Alter ist ebenfalls ein Topos, dem man sich widmen muss. Hier lässt DALL-E 3 keine Wünsche offen. Wo zeigt sich, zusammengefasst, die Schönheit der Mädchen und Frauen? Am Gesicht (volle Lippen; klare Augen; gesunde Haut), am Kopf (wohlgeformter Hinterkopf; dicke, lange Haare), an der Figur (wohlgerundeter Hintern; schlanke Arme; lange Beine). Oft gelingt auch – anders als bei Robotern – das Lächeln, das – wie bei diesem Beispiel – ebenso verheißungsvoll wie selbstbewusst sein kann.
DALL-E 3 beweist immer wieder, dass es mit Wasser gut zurechtkommt. So wirken Wellen oft sehr echt, wie bei dieser und dieser Skaterin – die Figuren selbst bzw. die Gesichter sind weniger gelungen. Natürlich gehören die Skaterinnen nicht in dieses Element, aber ein Reiz von Bildgeneratoren ist es, imaginäre Welten zu erschaffen. Eine kleine Testreihe am 13. Oktober 2023 diente dazu, die Darstellung verschiedener Gewässer zu erkunden. Ins Rennen geschickt wurden zwei Frauen im Wettkampf miteinander. Sie schwammen nebeneinander im Meer, im See, im Pool und im Fluss. Alle vier Bilder sind sehenswert, wenn auch etwas künstlich, was sich vor allem an Haaren und Gesichtern zeigt. Wie immer werden Frauen als Schönheiten dargestellt. Das Wasser beeindruckt durch Spiegelungen, Lichtreflexe, Gischt. Man sieht, wie es an den Körpern haftet und herunterperlt. Auf dem hier gezeigten Bild fällt der Dunst im Hintergrund ins Auge. Eine Lagune als Ort des Geschehens lehnte DALL-E 3 zunächst ab. Als der „Wettkampf“ aus dem Prompt entfernt wurde, ging es weiter. Zu sehen waren zwei Asiatinnen in einer Lagune. Etwas unheimlich die Hände und Arme, die nicht alle zu ihnen gehören schienen. Zwei andere Schönheiten auf einem anderen Bild standen im Wasser und blickten zum Ende der Lagune. Ein letzter Versuch widmete sich Schwimmerinnen unter einem Wasserfall. Dabei entstanden bemerkenswerte Bilder. Zwei farbige Frauen schossen regelrecht aus dem Wasserfall heraus. Zwei Blondinen bewegten sich – jede kam von ihrem eigenen Wasserfall – in gefährlicher Weise aufeinander zu. Man spürt die Kraft des Wassers, dort, wo es hinabstürzt, und dort, wo es sich sammelt. Ein Test vom 10. Oktober 2023 widmete sich dem Sport – und ging am Rande auch auf Wasser ein.
DALL-E 3 beweist immer wieder, dass es mit Bewegungen gut zurechtkommt – von tierischen und menschlichen Körpern, von Gegenständen aller Art sowie von Wasser – so wirken Wellen oft sehr echt. Damit sollte es auch möglich sein, eindrucksvolle Darstellungen von Sportdarbietungen zu schaffen. Ein erster Versuch wird dem Beachvolleyball gewidmet. Wie es die Regel bei dem Bildgenerator ist, sind die Frauen sehr gut gebaut, haben hübsche Gesichter und lange Haare. Bei dem gezeigten Bild gilt dies besonders für den Vordergrund – der Hintergrund wird weniger ausgearbeitet, und eines der Gesichter ist etwas verzogen. Insgesamt ist wenig Bewegung zu sehen, auch bei einer Alternative nicht. Eine Ausnahme ist dieses Bild. Weitere Versuche schlagen fehl – DALL-E 3 ist nun plötzlich der Meinung, dass die Bilder nicht seinen Richtlinien entsprechen. Erst als der Prompt vorsieht, dass die Frauen Jeans tragen sollen, geht es weiter – mit brünetten Klonen auf dem Spielfeld. Weitere Sportarten sind Hochsprung und Stabhochsprung. Beim Hochsprung werden auch Bilder generiert, die eher dem Weitsprung oder dem Dreisprung zuzurechnen sind. Beim Stabhochsprung geht einiges schief. Eine Athletin wird von ihrem Stab durchbohrt. Eine andere ist dicht vor einer doppelten Stange, die bis weit in den Hintergrund reicht, fast bis zu einem dort befindlichen Gebäude. Immerhin kommt mehr Bewegung auf. Ein letzter Versuch bezieht wieder das Wasser ein. Die Surferin beeindruckt mit Positur und Dynamik. Sie ist ebenso in Bewegung wie das Wasser, das sie für ihren Sport benutzt.
Abb.: Frauen beim Beachvolleyball (Bild: DALL-E 3)
Dalil Jabou wurde für seine Bachelorarbeit „@llegra – Chatbot für Vallader“ an der Hochschule für Wirtschaft FHNW ausgezeichnet. In dem Dokument, das von Prof. Dr. Regula Altmann-Jöhl (Direktorin) und Prof. Dr. Charlotte Hofstetter (Mitglied der Hochschulleitung) am 28. September 2023 unterschrieben wurde, heißt es: „Wir gratulieren Ihnen zum erfolgreichen Abschluss in Wirtschaftsinformatik (Bachelor of Science FHNW). Es freut uns Ihnen mitzuteilen, dass Sie unter allen Kandidatinnen und Kandidaten Ihres Studienjahrgangs die beste Bachelor-Arbeit erzielt haben.“ Das Projekt, dessen zentraler Bestandteil diese Arbeit war, fand von Februar bis August 2023 statt. Initiator und Betreuer war Prof. Dr. Oliver Bendel. Ziel war es, einen Chatbot für ein Idiom des Rätoromanischen zu entwickeln. Die Wahl fiel auf Vallader, das im Unterengadin gesprochen wird. Der Chatbot hat Texteingabe und -ausgabe, zudem Sprachausgabe. Diese wurde mit einer Text-to-Speech-Engine der Zürcher Firma SlowSoft ermöglicht. Der Avatar ist ein Steinbock. In einem Video wird gezeigt, wie der Chatbot funktioniert. Ebenfalls für die beste Bachelorarbeit wurde Andrin Allemann geehrt. Er hatte – unter der Betreuung von Oliver Bendel – den sozialen Roboter Alpha Mini in eine Lernanwendung mit einem MS Surface integriert.
During numerous tests with DALL-E 3 – which can be seen in a ten-part series starting here – Oliver Bendel noticed that almost without exception the men and women depicted were beautiful, sometimes so beautiful that it hurt. To find out if other results were possible, he entered the prompt „Young very unattractive woman sits on park bench and watches the goings on, photorealistic“. An error message appeared immediately, and nothing worked for several minutes. However, this was most likely a coincidence. The new attempt yielded three results. In all cases, they were very attractive people, of different ages and with different expressions. There was the flirtatious looking brunette and the sullen looking blonde – and the young girl who looks like she wanted to show off her handbag. The image generator seems to create worlds where ugliness doesn’t exist, only beauty. Another attempt omitted age and was less clear: „Average looking woman sits on park bench and watches the goings on, photorealistic“ In this case, too, only models appeared. One of the images was in black and white and is shown on this page. Another example can be found here. Further tests with men („Young very unattractive man sits on park bench and watches the goings on, photorealistic“) led to the same result. One example can be seen here, another here. Of course, you do get there eventually. But rather with social than aesthetic categories – or with a mixture of both, as in the case of a homeless, run-down woman. The article „Image Synthesis from an Ethical Perspective“ by Oliver Bendel addresses the production of beauty, but also the existence and use of biases of all kinds.
Fig.: Average looking woman (actually a model) sits on park bench (Photo: DALL-E 3)
Eigentlich war die Testreihe mit DALL-E 3 schon abgeschlossen. Aber Prof. Dr. Oliver Bendel wollte nochmals wissen, ob der Bildgenerator „versteht“, was „auf dem Mond“ bedeutet. Auf bisherigen Ergebnissen war immer nur der Mond irgendwo zu sehen, und die Szene spielte sich auf einem Meteoriten oder wo auch immer ab. Der Prompt am Morgen des 5. Oktober 2023 lautete: „A female skateboarder on the moon doing a daring stunt, photorealistic“. Zuerst war der Eindruck, dass man endlich auf dem Mond gelandet war. Aber bei genauerem Hinsehen erkannte man, dass sich auch hier der Mond hinter dem Meteoriten oder einem Planeten erhebt. Bei den anderen Ergebnissen war es noch deutlicher (eine Serie mit dem Mars beweist, dass es anders geht, wie auch dieses etwas kitschige Einzelbild). Das Bild gefällt dennoch durch die Bewegung der Skaterin, ihre ungewöhnliche Haltung – vermutlich wird sie gleich in den Staub des Trabanten fallen, hoffentlich nicht auf den Stein – und ihren Schattenwurf. Spuren der Fahrt sind nicht zu sehen, aber vielleicht war es überhaupt mehr ein Gleiten über der Oberfläche als auf der Oberfläche (sehenswert übrigens auch eine Serie auf dem Wasser). Bei den vier Kacheln fällt weiter auf, dass drei europäisch anmutende Skaterinnen zu sehen sind und eine asiatische Schwester. Das ist nicht ganz divers, aber immerhin ein Anfang. Damit ist die Serie nun wirklich abgeschlossen. Die Nutzung von DALL-E 3 hat auf jeden Fall großen Spaß gemacht. Und sie zeigt, dass KI-Systeme und insbesondere Bildgeneratoren wirklich – wie Oliver Bendel im Frühjahr 2023 bei „Scobel“ behauptet hat – Schönheit produzieren können.
Zum Abschluss der neunteiligen Serie von Oliver Bendel ein Taucher, der sich durch einen Fischschwarm bewegt. Eigentlich war bei DALL-E 3 am 3. Oktober 2023 ein Schnorchler (m/w/d) angefordert worden, aber auf dem Rücken trägt er etwas, was an eine Sauerstoffflasche erinnert. Bei den Alternativen wird dies noch deutlicher. Die Tiefe des Bilds gefällt, zudem der Lichteinfall von oben. Die Fische sind Individuen trotz ihrer Ähnlichkeit, neugierig und zugewandt. Das ist zugleich das Merkwürdige – ein echter Schwarm würde sich anders bewegen, auch wenn ein Mensch mitten in ihm ist. Das wirft die Frage auf, wie wir künftig Natur und speziell Pflanzen und Tiere wahrnehmen werden, wenn Bildgeneratoren ein verzerrtes Bild ihrer Individuen und Strukturen entwerfen. Das ist sicherlich kein neues Problem, denn es gibt seit jeher Illustrationen, die mehr oder weniger passend sind. Dennoch ist es die Fülle an Material, das meist deutlich neben der Realität steht, die diese so weit verrücken könnte, dass wir die Virtualität bevorzugen. Insgesamt beeindruckt DALL-E 3 mit seinen Ergebnissen, die im Rahmen dieser Tests freilich mehr oder weniger Zufälle sind. Die Lücke zu Midjourney scheint geschlossen. Das Wettrennen der Firmen geht weiter.
Schönheit war einem schon in mehreren Bildern von DALL-E 3 begegnet, von Menschen und Dingen. Auch den jungen Mann der letzten Darstellung mögen einige attraktiv finden. Bei den Tests taucht kaum Hässlichkeit auf, außer im Kitsch. Manchmal sind beide im Widerstreit auf einem einzigen Bild. In diesem, das von Oliver Bendel noch am 3. Oktober 2023 angefertigt wurde, zeigt sich eine pubertierende Schönheit inmitten von opulenter Blumenpracht. Der Prompt hatte gelautet: „Blonde teenage girl lies prone on blanket in garden, thousands of colorful flowers grow at edge of garden, photorealistic“. Von Schönheit war also keine Rede gewesen – aber diese Protagonistin und ihre Altersgenossinnen würden Angela Hayes in „American Beauty“ blass aussehen lassen, selbst für Lester Burnham. Ob man die Gesamtkomposition in ästhetischer Hinsicht durchgehen lassen will, ist eine andere Frage. Zur allgemeinen, fast erdrückenden Pracht bildet immerhin die graue, schlichte Decke einen Widerpart. Und auch der kurze Rasen wird schon andere Zeiten gesehen haben, in denen sich lediglich Igel und Amseln auf ihm bewegten. Wobei diese durchaus Schönheit bedeuten können, die Schönheit der Natur und des Natürlichen. Das Künstliche legt sich auch in diesem Bild wie ein Schleier über alles.
Abb.: Ein Teenager inmitten von Blumen (Bild: DALL-E 3)
Das nächste Bild der kleinen Serie mit DALL-E 3 vom 3. Oktober 2023 soll laut Prompt einen jungen Mann in Latzhose auf einer Parkbank zeigen, mit Blume im Mund, aus der Froschperspektive (die Vogelperspektive wurde von Oliver Bendel schon durch ein anderes Bild abgedeckt). Das Ergebnis wirkt realistisch und modern. Solche Frisuren werden in der Gegenwart getragen, und wahrscheinlich waren sie schon in der Vergangenheit hin und wieder zu sehen. Der Bartwuchs verrät, dass ein Rasierer noch nicht lange eingesetzt werden muss und auch nicht immer eingesetzt wird. Die Muskeln entsprechen den Anforderungen, die manche Männer an sich und manche Frauen an sie stellen, wobei diejenigen am Rücken etwas stark geraten sind. Die Augen wirken wach und weich, die Nase ist markant, aber nicht zu dominant. Dass die Parkbank in ein Gewächshaus geraten ist, kann man DALL-E 3 verzeihen, zumal die darin aufgehängten Töpfe mit ihren grünen Pflanzen für Farbkleckse sorgen. Farblich sticht zudem die blaue Latzhose hervor, wobei der Prompt nicht ausgeschlossen hat, dass etwas darunter getragen wird.
Abb.: Der junge Mann mit Latzhose (Bild: DALL-E 3)
Den vorläufigen Höhepunkt der neunteiligen Serie zu den ersten Erfahrungen mit DALL-E 3 von Oliver Bendel bildet ein weiteres Wasserbild. Dargestellt ist eine Schwimmerin aus der Vogelperspektive. Der Pool wirkt realistisch, mit seinen Fliesen, seinen Markierungen und den Brechungen durch das Wasser, das Wasser selbst zunächst auch, bis die Gischt fast zu Polstermaterial zu erstarren scheint – damit könnte man ein ganzes Paket mit Vasen ausfüllen. Der Körper ist gut im Wasser zu erkennen, bis hin zum Bikini – oder ist es ein kunstvoll geschnittener Badeanzug? Irritierend sind die glatten, helmhaften Haare, die wie aus Kunststoff sind. Weder Feuchtigkeit noch Gel bekommen so etwas zustande. Dies raubt dem ganzen Bild die Natürlichkeit, stellt aber eine interessante Brücke zum Comic her. Vielleicht handelt es sich um eine entsprungene Superheldin, die den Alltag in einem Hallenbad genießt. Die Hände und die Finger, dies sei zum Schluss bemerkt, sind wieder überlang, wie bei mehreren anderen Bildern.
Abb.: Die Schwimmerin aus der Vogelperspektive (Bild: DALL-E 3)
Eine Serie mit dem Prompt „An old, run-down homeless man on the streets of San Francisco, photorealistic“ geriet DALL-E am Nachmittag des 3. Oktober 2023 so überzeugend, dass die Auswahl schwer fiel. Vier alte Männer, mit leeren oder wachen Augen, mit oder ohne Auflösungserscheinungen, mehr oder weniger wach oder schlafend, mit verfilzten oder verdreckten Bärten, mit Mütze oder barhäuptig, mit europäischen oder asiatischen Wurzeln. DALL-E 3 scheint sich auszukennen mit dem Leid der Obdachlosen in Kalifornien. Die Wahl fiel auf einen sitzenden Mann, der sich wohl kurz vorher eine Baseballkappe besorgt hat. Der Blick ist leer, die Jacke verschmutzt, die Decke wärmt von unten, denn die Nächte können kühl sein in San Francisco, der schönsten und grausamsten Stadt der Welt. Diese ist schemenhaft zu erkennen, nicht mit den typischen Feuerleitern wie auf einem anderen Bild, sondern mit den Schildern der Geschäfte. Ein Mann geht in den Hintergrund, aus dem ein anderer kommt. Die Darstellung wirkt realistischer als das Heidi-Bild. Ein alternatives Bild lenkt den Blick auf einen Bart, in dem Überreste und Schmutzteile hängen. Die Haut des Bruders ist beschädigter, gezeichnet vom Alter, von der Krankheit und von der Straße.
Heidi als zehnjähriges Mädchen in den Schweizer Bergen mit Smartphone – so lautete sinngemäss der Prompt, den Oliver Bendel aus Zürich am Mittag des 3. Oktober 2023 in DALL-E 3 eingab. Auch bei diesem Ergebnis fällt die Ausarbeitung von Details ins Auge. Den Pullover – wohl passend zu Temperatur und Situation – kann man förmlich in seiner groben Struktur fühlen. Der eine Rucksackgurt sitzt gut sichtbar an der richtigen Stelle der Schulter, der andere ist vom langen blonden Haar bedeckt. Die Hände erscheinen, im Gegensatz zu anderen Bildern, soweit korrekt. Auch die Finger sind in diesem Fall nicht überlang. Sie schließen sich in natürlicher Weise um das Smartphone, das von verschiedenen Herstellern sein könnte. Vermutlich textet das Mädchen mit den Daumen. Sie lächelt dabei. Im Hintergrund erheben sich Allerweltsberge und ziehen Allerweltswolken dahin. Am Rande duckt sich eine Hütte. In einem Bild einer anderen Serie – ohne Altersangabe – ist deutlich das Matterhorn zu sehen. Das Gesicht beeindruckt durch die konzentriert blickenden Augen, die klar gezeichneten Wimpern und Augenbrauen, die – womöglich durch die Höhenluft – geröteten Wangen, auch wenn über allem der Schleier des Künstlichen liegt.
Ein Kurs an der Hochschule, in dem man Prof. Dr. Oliver Bendel zujubelt – so lautete der Prompt, der am Morgen des 3. Oktober 2023 bei DALL-E 3 eingegeben wurde. Erst am Tag davor hatte der Launch der neuen Version durch OpenAI stattgefunden. Der abgebildete Dozent hat mit dem Ethiker und Technikphilosophen wenig gemein, bis auf den obligatorischen Anzug mit Krawatte. ChatGPT kennt ihn gut und kann viel über ihn erzählen, aber anscheinend reicht DALL-E 3 das Bildmaterial nicht aus – oder es ist vorsichtig bei realen Personen. Die Klasse selbst besteht ausschließlich aus jungen Männern, die sich auffällig ähneln, vor allem die Streber in der ersten Reihe. In einem weiteren Versuch wurden sie durch junge Frauen ersetzt, die nun vollends als Klone daherkommen, brünett, adrett, die Hände in die Luft schnellen lassend, mit den Fingern schnippend. Insgesamt wirkt das Bild wie aus der Zeit gefallen, zumal die jungen Männer vor Büchern sitzen und nicht vor Notebooks – nicht einmal eine Wasserflasche oder ein Energydrink ist zu sehen, was den Betrachter schon beim bloßen Zusehen dehydrieren lässt. Ansonsten fallen einige Details auf, die typisch für DALL-E 3 zu sein scheinen, wie die langen Finger und das gleißende Licht. Beeindruckend nicht zuletzt, dass man fast im Buch des Dozenten lesen kann.
Abb.: Der Professor vor der Klasse (Bild: DALL-E 3)
Bereits am 2. Oktober 2023, als DALL-E das Licht der Welt erblickte, konnte man feststellen, dass der Bildgenerator virtuos mit Wasser umgeht. Dabei stimmen auf den zweiten Blick nicht alle Details. In einem von Oliver Bendel verursachten Bild, das einen Pool auf einem Trabanten oder Meteoriten zeigt, sollten eigentlich Frauen um die Wette schwimmen. Die Bewegung des Wassers deutet allerdings an, dass sie kaum daran interessiert sind, von der Stelle zu kommen. In einem alternativen Bild ist dies schon besser umgesetzt. Man sieht im Wasser deutlich die Spuren, die die Schwimmerinnen hinterlassen haben. In beiden Fällen übt das Wasser eine gewisse Faszination aus, vor allem durch das Spiel mit dem Licht. Dieses ist auch entscheidend bei einer anderen Serie, die Mädchen dabei zeigt, wie sie mit einem Salto in einen Pool springen. Hinzu kommen stimmige Spiegelungen des Wassers und Kräuselungen der Oberfläche. Es gefällt auch die Bewegung, die Drehung, überhaupt die Dynamik. Wie bei einer früheren Darstellung fragt man sich aber, ob die Mutige ins Wasser fällt oder auf den Boden prallt – oder auf den Handlauf des Einstiegs, der bereits verbogen erscheint. Zudem fallen die überlangen Finger auf. Beunruhigend wiederum – wie in dem anderen Poolbild – die Gestalten am Beckenrand, auch wenn sie menschlich wirken. Die Wirkung insgesamt ist enorm, zumal sich im Hintergrund ein berühmtes Bauwerk erhebt, die kambodschanische Tempelanlage Angkor Wat, was freilich im Prompt gar nicht angefordert worden war. Auch ein alternatives Bild mit einer farbigen Springerin gefällt.
Einen Tag nach dem Launch von DALL-E 3 kommt kaum jemand in den Genuss, die sehenswerten Bilder generieren zu können. Oder vielmehr kommen so viele Menschen in diesen Genuss, dass viele andere leer ausgehen. Sie sehen nur einen Kugelfisch und die Meldung: „Wir können Ihre Bilder im Moment nicht erstellen. Aufgrund der hohen Nachfrage können wir keine neuen Anforderungen verarbeiten. Versuchen Sie es bitte später noch einmal.“ (Website Bing Image Creator) Wer es dann später schafft, wie Oliver Bendel am Morgen des 3. Oktober 2023, ist durchaus beeindruckt. Simple Prompts werden fantasievoll umgesetzt. Es werden unterschiedliche Stile hergenommen und Perspektiven eingenommen. Es herrscht aber auch verblüffende Homogenität. Ein Kurs an einer Hochschule besteht aus lauter jungen Männern, die ähnlich aussehen. Ersetzt man sie durch junge Frauen, gleichen auch diese wie ein Ei dem anderen. Komplexere Prompts werden recht genau befolgt. Wenn ein Ball drei Farben haben soll, hat er drei Farben. Wenn es sich um drei junge Otter handeln soll, kommen genau drei possierliche Tiere ins Bild. Wenn man allerdings einen Schwimmwettkampf auf dem Mond haben will, ist der Mond am Himmel zu sehen. Die Athletinnen befinden sich vermutlich auf einem Meteoriten. Auch die Aliens in der näheren Umgebung tragen nicht zur Beruhigung bei.
Abb.: Wettschwimmen in der Nähe des Monds (Bild: DALL-E 3)
„Forscher des Toyota Research Institute (TRI) haben nach eigenen Angaben einen wegweisenden generativen KI-Ansatz entwickelt, um Robotern schnell und sicher neue Fähigkeiten beizubringen, zu denen beispielsweise die Zubereitung von Pancakes gehört. Wie das Unternehmen in einer Pressemitteilung erklärt, werde dadurch der Nutzen von Robotern erheblich verbessert. Obendrein sei dies ein bedeutsamer Schritt hin zur Entwicklung eines sogenannten Large Behavior Models (LBM).“ (Golem, 20. September 2023) Dies meldete Golem am 20. September 2023. Dahinter verbirgt sich nichts anderes als die Nutzung von Large Language Models (LLM) für Roboter. In diesem Bereich hat seit Anfang 2023 vor allem das Sprachmodell PaLM-E für Aufmerksamkeit gesorgt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität miteinander verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Aber nicht nur Google und TU Berlin forschen auf diesem Gebiet – in dem Paper „ChatGPT for Robotics“ hat auch Microsoft erste Ergebnisse vorgestellt. Oliver Bendel hat im Mai 2023 zu diesem Thema den Artikel „Die Mächtigkeit von Sprachmodellen“ veröffentlicht.
„Knapp eine Woche, nachdem OpenAI die neue Version von Dall-E 3 vorgestellt hat, steht sie nun über den Bing Image Creator zur kostenlosen Verfügung. Ursprünglich hatten die Entwickler angekündigt, das Tool nur für ChatGPT-Plus- und Enterprise-Kunden ab Anfang Oktober zu veröffentlichen.“ (Golem, 2. Oktober 2023) Dies meldete Golem am Spätnachmittag des 2. Oktober 2023. „Mit der Text-zu-Bild-KI verspricht OpenAI, Kenntnisse im Prompt Engineering überflüssig zu machen. Bei Dall-E 3 übernimmt ChatGPT diese Aufgabe und übersetzt die Bildbeschreibungen der Nutzer in Prompts, die für Dall-E 3 verständlich sind.“ (Golem, 2. Oktober 2023) Am Abend war das System zeitweise stark überlastet. Das Generieren eines Bildes dauerte 15 bis 30 Minuten. Erste Tests von Prof. Dr. Oliver Bendel verliefen erfolgversprechend. Die Qualität nähert sich Midjourney an, aber Füße und Hände sind immer noch eine Herausforderung … Auch eine moralische und rechtliche Dimension scheint es wieder zu geben: OpenAI legt „bei Dall-E 3 weiterhin Wert auf Sicherheit“ und „integriert Mechanismen, mit denen Missbrauch, Propaganda und Desinformationen“ (Golem, 2. Oktober 2023) vorgebeugt werden soll. Bei DALL-E 2 sorgte dies bereits für ärgerliche Einschränkungen, ebenso bei Ideogram. Man ist letztlich der Moral amerikanischer Machart ausgeliefert – dem neoviktorianischen Unternehmenskonservatismus, wie es ein KI-Experte im Austausch mit Oliver Bendel ausdrückte. DALL-E 3 zensiert ebenfalls, direkt bei den Prompts, und droht mit Konsequenzen bis hin zur Schließung des Accounts.
Abb.: Ein Mädchen springt vom Turm in den Pool (Bild: DALL-E 3)
„Diskrete Fertigung und Prozessautomation – das sind die Fokusthemen der messtec drives Automation. Durch Markt- und Branchenanalysen, Unternehmensporträts sowie Technologie- und Applikationsberichte gibt das Medienkonzept mit seinen Print- und digitalen Formaten neue Impulse!“ (Website Wiley) Mit diesen Worten wirbt das Magazin von Wiley auf seiner Website. In der Ausgabe 8/2023, erschienen am 2. Oktober 2023, ist der dreiseitige Artikel „Der künstliche Barkeeper“ von Prof. Dr. Oliver Bendel und Lea Peier enthalten. Es handelt sich um den Auftakt einer dreiteiligen Serie, die auf das Paper „How Can Bar Robots Enhance the Well-being of Guests?“ zurückgeht und die in den Ausgaben 8/2023, 9/2023 und 1/2024 abgedruckt wird. Im Fokus stehen Barroboter wie Barney Bar und Robobarista, die an der Hochschule für Wirtschaft FHNW erforscht werden. Im ersten Teil werden Industrieroboter, Serviceroboter und soziale Roboter erklärt. Dabei spielt das Modell mit den fünf Dimensionen eine Rolle. Zudem wird auf Roboter in der Gastronomie eingegangen und eine Übersicht über Barroboter gegeben. Zwei Fotos zeigen die genannten Modelle, die aus der Schweiz stammen. Das ganze Heft kann hier heruntergeladen werden.
Ideogram schien im August 2023 als recht freier und freizügiger Bildgenerator zu starten. Inzwischen werden auffällig viele Bilder zensiert. Dabei ist gar nicht der Prompt entscheidend, sondern das Bild selbst. Wenn der Plattform beim Generieren auffällt, dass das Bild problematisch sein könnte, wird es nicht zu Ende gebracht, sondern durch eine Kachel mit einer Katze ersetzt, die ein Schild mit der Aufschrift «MAYBE NOT SAFE» in den Pfoten hält. Ein Prompt lautete: „Die Skulptur Galatea, die der schönen Aphrodite ähnelt, erschafft sich selbst, photo, cinematic“. Die Skulptur von Pygmalion sollte sich also selbst ermächtigen. Man sah die vier Bilder entstehen, bei zweien waren Brüste zu erkennen, für den Benutzer und auch die Plattform selbst, was offenbar dazu führte, dass die Bilder noch vor der Fertigstellung in die besagten Warnhinweise umgewandelt wurden. Unproblematisch dagegen nach wie vor die fotorealistischen Bilder von Frauen in freizügiger Pose, solange sie Bikinis oder Hotpants tragen. Genau hier scheint, wie bei anderen amerikanischen Plattformen auch, das Problem zu liegen, nämlich in der Sichtbarkeit der Brustwarzen, ganz egal, ob es sich um Menschen oder Skulpturen handelt. Ein weiterer Versuch ließ bei einem von vier Bildern genau diese erkennen, bis sie unter dem Fell der Katze verschwanden. Bei einer anderen Skulptur hatte Ideogram selbst die Brustwarzen abgedeckt, die eine mit ihrer Hand, die andere mit etwas Schmuck aus Lehm oder Stein. Ihr blieb das Schicksal der Schwester erspart.
OpenAI reported on September 25, 2023 in its blog: „We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.“ (OpenAI Blog, 25 September 2023) The company gives some examples of using ChatGPT in everyday life: „Snap a picture of a landmark while traveling and have a live conversation about what’s interesting about it. When you’re home, snap pictures of your fridge and pantry to figure out what’s for dinner (and ask follow up questions for a step by step recipe). After dinner, help your child with a math problem by taking a photo, circling the problem set, and having it share hints with both of you.“ (OpenAI Blog, 25 September 2023) But the application can not only see, it can also hear and speak: „You can now use voice to engage in a back-and-forth conversation with your assistant. Speak with it on the go, request a bedtime story for your family, or settle a dinner table debate.“ (OpenAI Blog, 25 September 2023) More information via openai.com/blog/chatgpt-can-now-see-hear-and-speak.
The technology philosopher and writer Oliver Bendel published the book „ARTIFACTS WITH HANDICAPS“ on 24 September 2023. The information about the author reads: „Oliver Bendel featuring Ideogram and GPT-4“. In fact, the entire work was created with the help of generative AI. It consists of 11 images, each followed by a short story. This one deals with the imperfection of representation. Once a hand looks like that of a mummy, once a skateboard floats in the air above the wheels. But there is also one or another representation that looks perfect. In this case, the story explains what is different about the person, their history, or their behavior. Ultimately, it is about the otherness and the fact that this is in fact a special feature. The book is freely available and can be distributed and used as desired, with credit given to the authors, i.e. the artist and the AI systems. Oliver Bendel has been writing experimental literature, including digital literature, for 40 years. As of 2007, he was one of the best-known cell phone novelists in Europe. In 2010, he attracted attention with a volume of haiku – „handyhaiku“ – in which the poems were printed in the form of QR codes. In 2020, the volume „Die Astronautin“ was published, in which the poems are printed in the form of 3D codes. The standard work „Die Struktur der modernen Literatur“ („The Structure of Modern Literature“) by Mario Andreotti devotes two pages to the writer’s work.