Das nächste Bild der kleinen Serie mit DALL-E 3 vom 3. Oktober 2023 soll laut Prompt einen jungen Mann in Latzhose auf einer Parkbank zeigen, mit Blume im Mund, aus der Froschperspektive (die Vogelperspektive wurde von Oliver Bendel schon durch ein anderes Bild abgedeckt). Das Ergebnis wirkt realistisch und modern. Solche Frisuren werden in der Gegenwart getragen, und wahrscheinlich waren sie schon in der Vergangenheit hin und wieder zu sehen. Der Bartwuchs verrät, dass ein Rasierer noch nicht lange eingesetzt werden muss und auch nicht immer eingesetzt wird. Die Muskeln entsprechen den Anforderungen, die manche Männer an sich und manche Frauen an sie stellen, wobei diejenigen am Rücken etwas stark geraten sind. Die Augen wirken wach und weich, die Nase ist markant, aber nicht zu dominant. Dass die Parkbank in ein Gewächshaus geraten ist, kann man DALL-E 3 verzeihen, zumal die darin aufgehängten Töpfe mit ihren grünen Pflanzen für Farbkleckse sorgen. Farblich sticht zudem die blaue Latzhose hervor, wobei der Prompt nicht ausgeschlossen hat, dass etwas darunter getragen wird.
Abb.: Der junge Mann mit Latzhose (Bild: DALL-E 3)
Den vorläufigen Höhepunkt der neunteiligen Serie zu den ersten Erfahrungen mit DALL-E 3 von Oliver Bendel bildet ein weiteres Wasserbild. Dargestellt ist eine Schwimmerin aus der Vogelperspektive. Der Pool wirkt realistisch, mit seinen Fliesen, seinen Markierungen und den Brechungen durch das Wasser, das Wasser selbst zunächst auch, bis die Gischt fast zu Polstermaterial zu erstarren scheint – damit könnte man ein ganzes Paket mit Vasen ausfüllen. Der Körper ist gut im Wasser zu erkennen, bis hin zum Bikini – oder ist es ein kunstvoll geschnittener Badeanzug? Irritierend sind die glatten, helmhaften Haare, die wie aus Kunststoff sind. Weder Feuchtigkeit noch Gel bekommen so etwas zustande. Dies raubt dem ganzen Bild die Natürlichkeit, stellt aber eine interessante Brücke zum Comic her. Vielleicht handelt es sich um eine entsprungene Superheldin, die den Alltag in einem Hallenbad genießt. Die Hände und die Finger, dies sei zum Schluss bemerkt, sind wieder überlang, wie bei mehreren anderen Bildern.
Abb.: Die Schwimmerin aus der Vogelperspektive (Bild: DALL-E 3)
Ein Kurs an der Hochschule, in dem man Prof. Dr. Oliver Bendel zujubelt – so lautete der Prompt, der am Morgen des 3. Oktober 2023 bei DALL-E 3 eingegeben wurde. Erst am Tag davor hatte der Launch der neuen Version durch OpenAI stattgefunden. Der abgebildete Dozent hat mit dem Ethiker und Technikphilosophen wenig gemein, bis auf den obligatorischen Anzug mit Krawatte. ChatGPT kennt ihn gut und kann viel über ihn erzählen, aber anscheinend reicht DALL-E 3 das Bildmaterial nicht aus – oder es ist vorsichtig bei realen Personen. Die Klasse selbst besteht ausschließlich aus jungen Männern, die sich auffällig ähneln, vor allem die Streber in der ersten Reihe. In einem weiteren Versuch wurden sie durch junge Frauen ersetzt, die nun vollends als Klone daherkommen, brünett, adrett, die Hände in die Luft schnellen lassend, mit den Fingern schnippend. Insgesamt wirkt das Bild wie aus der Zeit gefallen, zumal die jungen Männer vor Büchern sitzen und nicht vor Notebooks – nicht einmal eine Wasserflasche oder ein Energydrink ist zu sehen, was den Betrachter schon beim bloßen Zusehen dehydrieren lässt. Ansonsten fallen einige Details auf, die typisch für DALL-E 3 zu sein scheinen, wie die langen Finger und das gleißende Licht. Beeindruckend nicht zuletzt, dass man fast im Buch des Dozenten lesen kann.
Abb.: Der Professor vor der Klasse (Bild: DALL-E 3)
„Knapp eine Woche, nachdem OpenAI die neue Version von Dall-E 3 vorgestellt hat, steht sie nun über den Bing Image Creator zur kostenlosen Verfügung. Ursprünglich hatten die Entwickler angekündigt, das Tool nur für ChatGPT-Plus- und Enterprise-Kunden ab Anfang Oktober zu veröffentlichen.“ (Golem, 2. Oktober 2023) Dies meldete Golem am Spätnachmittag des 2. Oktober 2023. „Mit der Text-zu-Bild-KI verspricht OpenAI, Kenntnisse im Prompt Engineering überflüssig zu machen. Bei Dall-E 3 übernimmt ChatGPT diese Aufgabe und übersetzt die Bildbeschreibungen der Nutzer in Prompts, die für Dall-E 3 verständlich sind.“ (Golem, 2. Oktober 2023) Am Abend war das System zeitweise stark überlastet. Das Generieren eines Bildes dauerte 15 bis 30 Minuten. Erste Tests von Prof. Dr. Oliver Bendel verliefen erfolgversprechend. Die Qualität nähert sich Midjourney an, aber Füße und Hände sind immer noch eine Herausforderung … Auch eine moralische und rechtliche Dimension scheint es wieder zu geben: OpenAI legt „bei Dall-E 3 weiterhin Wert auf Sicherheit“ und „integriert Mechanismen, mit denen Missbrauch, Propaganda und Desinformationen“ (Golem, 2. Oktober 2023) vorgebeugt werden soll. Bei DALL-E 2 sorgte dies bereits für ärgerliche Einschränkungen, ebenso bei Ideogram. Man ist letztlich der Moral amerikanischer Machart ausgeliefert – dem neoviktorianischen Unternehmenskonservatismus, wie es ein KI-Experte im Austausch mit Oliver Bendel ausdrückte. DALL-E 3 zensiert ebenfalls, direkt bei den Prompts, und droht mit Konsequenzen bis hin zur Schließung des Accounts.
Abb.: Ein Mädchen springt vom Turm in den Pool (Bild: DALL-E 3)
„GPT als Lösung für Phishing-Erkennung“ ist der Titel einer Abschlussarbeit, die ab März 2023 von Noeh Pertoldi unter der Betreuung von Prof. Dr. Oliver Bendel geschrieben und im August abgeschlossen wurde. Auftraggeber war eine Schweizer Privatbank. Untersucht wurde, ob Sprachmodelle gegenüber traditionellen Ansätzen zur Identifizierung von Phishing-E-Mails einen signifikanten Vorteil aufweisen. Dabei fokussierte der Student der Hochschule für Wirtschaft FHNW auf GPT von OpenAI. „Zudem wurde ein Konzept erstellt, wie diese neuartige Methode angewendet und in ein E-Mail-Programm eingebunden werden kann.“ (Management Summary) Die Tests haben ergeben, dass GPT die Phishing-E-Mails, welche durch die traditionellen Filter rutschen, mit einer hohen Genauigkeit erkennen kann. Es spricht demnach viel dafür, Sprachmodelle auch in diesem Bereich einzusetzen. Das Ergebnis der Abschlussarbeit ist, „dass die Erkennung von betrügerischen E-Mails durch Sprachmodelle effektiv ist, doch nur das Zusammenspiel mit den traditionellen Methoden für die maximale Sicherheit sorgt“ (Management Summary). Inwieweit es Sinn ergibt, dass Unternehmen als Anwender selbst Lösungen zur Bekämpfung von Phishing mit GPT vorantreiben, sei dahingestellt. Die Anbieter sind bereits dabei, ihre Office-Lösungen mit generativer KI zu ergänzen.
Abb.: GPT kann betrügerische E-Mails erkennen (Bild: Ideogram)
GPT-4 was launched by OpenAI on March 14, 2023. „GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.“ (Website OpenAI) On its website, the company explains the multimodal options in more detail: „GPT-4 can accept a prompt of text and images, which – parallel to the text-only setting – lets the user specify any vision or language task. Specifically, it generates text outputs (natural language, code, etc.) given inputs consisting of interspersed text and images.“ (Website OpenAI) The example that OpenAI gives is impressive. An image with multiple panels was uploaded. The prompt is: „What is funny about this image? Describe it panel by panel“. This is exactly what GPT-4 does and then comes to the conclusion: „The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.“ (Website OpenAI) The technical report is available via cdn.openai.com/papers/gpt-4.pdf.
Sundar Pichai, the CEO of Google and Alphabet, announced the answer to ChatGPT in a blog post dated February 6, 2023. According to him, Bard is an experimental conversational AI service powered by LaMDA. It has been opened to trusted testers and will be made available to the public in the coming weeks. „Bard seeks to combine the breadth of the world’s knowledge with the power, intelligence and creativity of our large language models. It draws on information from the web to provide fresh, high-quality responses. Bard can be an outlet for creativity, and a launchpad for curiosity, helping you to explain new discoveries from NASA’s James Webb Space Telescope to a 9-year-old, or learn more about the best strikers in football right now, and then get drills to build your skills.“ (Sundar Pichai 2023) In recent weeks, Google had come under heavy pressure from OpenAI’s ChatGPT. It was clear that they had to present a comparable application based on LaMDA as soon as possible. In addition, Baidu wants to launch the Ernie Bot, which means another competing product. More information via blog.google/technology/ai/bard-google-ai-search-updates/.
The ACI2022 conference continued on the afternoon of December 7, 2022. „Paper Session 2: Recognising Animals & Animal Behaviour“ began with a presentation by Anna Zamansky (University of Haifa). The title was „How Can Technology Support Dog Shelters in Behavioral Assessment: an Exploratory Study“. Her next talk was also about dogs: „Do AI Models ‚Like‘ Black Dogs? Towards Exploring Perceptions of Dogs with Vision-Language Models“. She went into detail about OpenAI’s CLIP model, among other things. CLIP is a neural network which learns visual concepts from natural language supervision. She raised the question: „How can we use CLIP to investigate adoptability?“ Hugo Jair Escalante (INAOE) then gave a presentation on the topic „Dog emotion recognition from images in the wild: DEBIw dataset and first results“. Emotion recognition using face recognition is still in its infancy with respect to animals, but impressive progress is already being made. The last presentation in the afternoon before the coffee break was „Detecting Canine Mastication: A Wearable Approach“ by Charles Ramey (Georgia Institute of Technology). He raised the question: „Can automatic chewing detection measure how detection canines are coping with stress?“. More information on the conference via www.aciconf.org.