DALL-E 3 steht Allgemeinheit zur Verfügung

„Knapp eine Woche, nachdem OpenAI die neue Version von Dall-E 3 vorgestellt hat, steht sie nun über den Bing Image Creator zur kostenlosen Verfügung. Ursprünglich hatten die Entwickler angekündigt, das Tool nur für ChatGPT-Plus- und Enterprise-Kunden ab Anfang Oktober zu veröffentlichen.“ (Golem, 2. Oktober 2023) Dies meldete Golem am Spätnachmittag des 2. Oktober 2023. „Mit der Text-zu-Bild-KI verspricht OpenAI, Kenntnisse im Prompt Engineering überflüssig zu machen. Bei Dall-E 3 übernimmt ChatGPT diese Aufgabe und übersetzt die Bildbeschreibungen der Nutzer in Prompts, die für Dall-E 3 verständlich sind.“ (Golem, 2. Oktober 2023) Am Abend war das System zeitweise stark überlastet. Das Generieren eines Bildes dauerte 15 bis 30 Minuten. Erste Tests von Prof. Dr. Oliver Bendel verliefen erfolgversprechend. Die Qualität nähert sich Midjourney an, aber Füße und Hände sind immer noch eine Herausforderung … Auch eine moralische und rechtliche Dimension scheint es wieder zu geben: OpenAI legt „bei Dall-E 3 weiterhin Wert auf Sicherheit“ und „integriert Mechanismen, mit denen Missbrauch, Propaganda und Desinformationen“ (Golem, 2. Oktober 2023) vorgebeugt werden soll. Bei DALL-E 2 sorgte dies bereits für ärgerliche Einschränkungen, ebenso bei Ideogram. Man ist letztlich der Moral amerikanischer Machart ausgeliefert – dem neoviktorianischen Unternehmenskonservatismus, wie es ein KI-Experte im Austausch mit Oliver Bendel ausdrückte. DALL-E 3 zensiert ebenfalls, direkt bei den Prompts, und droht mit Konsequenzen bis hin zur Schließung des Accounts.

Abb.: Ein Mädchen springt vom Turm in den Pool (Bild: DALL-E 3)

GPT als Lösung für Phishing-Erkennung

„GPT als Lösung für Phishing-Erkennung“ ist der Titel einer Abschlussarbeit, die ab März 2023 von Noeh Pertoldi unter der Betreuung von Prof. Dr. Oliver Bendel geschrieben und im August abgeschlossen wurde. Auftraggeber war eine Schweizer Privatbank. Untersucht wurde, ob Sprachmodelle gegenüber traditionellen Ansätzen zur Identifizierung von Phishing-E-Mails einen signifikanten Vorteil aufweisen. Dabei fokussierte der Student der Hochschule für Wirtschaft FHNW auf GPT von OpenAI. „Zudem wurde ein Konzept erstellt, wie diese neuartige Methode angewendet und in ein E-Mail-Programm eingebunden werden kann.“ (Management Summary) Die Tests haben ergeben, dass GPT die Phishing-E-Mails, welche durch die traditionellen Filter rutschen, mit einer hohen Genauigkeit erkennen kann. Es spricht demnach viel dafür, Sprachmodelle auch in diesem Bereich einzusetzen. Das Ergebnis der Abschlussarbeit ist, „dass die Erkennung von betrügerischen E-Mails durch Sprachmodelle effektiv ist, doch nur das Zusammenspiel mit den traditionellen Methoden für die maximale Sicherheit sorgt“ (Management Summary). Inwieweit es Sinn ergibt, dass Unternehmen als Anwender selbst Lösungen zur Bekämpfung von Phishing mit GPT vorantreiben, sei dahingestellt. Die Anbieter sind bereits dabei, ihre Office-Lösungen mit generativer KI zu ergänzen.

Abb.: GPT kann betrügerische E-Mails erkennen (Bild: Ideogram)

Launch of GPT-4

GPT-4 was launched by OpenAI on March 14, 2023. „GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.“ (Website OpenAI) On its website, the company explains the multimodal options in more detail: „GPT-4 can accept a prompt of text and images, which – parallel to the text-only setting – lets the user specify any vision or language task. Specifically, it generates text outputs (natural language, code, etc.) given inputs consisting of interspersed text and images.“ (Website OpenAI) The example that OpenAI gives is impressive. An image with multiple panels was uploaded. The prompt is: „What is funny about this image? Describe it panel by panel“. This is exactly what GPT-4 does and then comes to the conclusion: „The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.“ (Website OpenAI) The technical report is available via cdn.openai.com/papers/gpt-4.pdf.

Abb.: Midjourney images can also be used

Bard is Followed by Ernie Bot

Sundar Pichai, the CEO of Google and Alphabet, announced the answer to ChatGPT in a blog post dated February 6, 2023. According to him, Bard is an experimental conversational AI service powered by LaMDA. It has been opened to trusted testers and will be made available to the public in the coming weeks. „Bard seeks to combine the breadth of the world’s knowledge with the power, intelligence and creativity of our large language models. It draws on information from the web to provide fresh, high-quality responses. Bard can be an outlet for creativity, and a launchpad for curiosity, helping you to explain new discoveries from NASA’s James Webb Space Telescope to a 9-year-old, or learn more about the best strikers in football right now, and then get drills to build your skills.“ (Sundar Pichai 2023) In recent weeks, Google had come under heavy pressure from OpenAI’s ChatGPT. It was clear that they had to present a comparable application based on LaMDA as soon as possible. In addition, Baidu wants to launch the Ernie Bot, which means another competing product. More information via blog.google/technology/ai/bard-google-ai-search-updates/.

Fig.: The situation becomes confusing

Do AI Models „Like“ Black Dogs?

The ACI2022 conference continued on the afternoon of December 7, 2022. „Paper Session 2: Recognising Animals & Animal Behaviour“ began with a presentation by Anna Zamansky (University of Haifa). The title was „How Can Technology Support Dog Shelters in Behavioral Assessment: an Exploratory Study“. Her next talk was also about dogs: „Do AI Models ‚Like‘ Black Dogs? Towards Exploring Perceptions of Dogs with Vision-Language Models“. She went into detail about OpenAI’s CLIP model, among other things. CLIP is a neural network which learns visual concepts from natural language supervision. She raised the question: „How can we use CLIP to investigate adoptability?“ Hugo Jair Escalante (INAOE) then gave a presentation on the topic „Dog emotion recognition from images in the wild: DEBIw dataset and first results“. Emotion recognition using face recognition is still in its infancy with respect to animals, but impressive progress is already being made. The last presentation in the afternoon before the coffee break was „Detecting Canine Mastication: A Wearable Approach“ by Charles Ramey (Georgia Institute of Technology). He raised the question: „Can automatic chewing detection measure how detection canines are coping with stress?“. More information on the conference via www.aciconf.org.

Fig.: A black dog