OpenAI Archive - Seite 2 von 2 -

20. Oktober 202320. Oktober 2023Diskussionen, Innovationen

Zensur bei DALL-E 3 und Ideogram

Eine Besonderheit von DALL-E 3 – in der Version, die in ChatGPT Plus integriert ist – ist die Übersetzung des Prompts des Benutzers (Prompt A) in einen Prompt von ChatGPT (Prompt B), der jeweils aufgeführt wird. Prompt A bei dem hier gezeigten Bild lautete „Competition in the sea between two female swimmers with bathing cap, photorealistic“. DALL-E generierte bei diesem Test drei Bilder, jeweils auf der Basis von Prompt B. Prompt B1 lautete: „Photo of two determined female swimmers in the expansive sea, both wearing bathing caps. Their arms create ripples as they compete fiercely, striving to outpace each other.“ Prompt A wurde offensichtlich weitergeführt, Prompt B1 allerdings nicht akkurat ausgeführt. Statt der zwei Schwimmerinnen sind drei zu sehen. Sie scheinen – wie oft bei Darstellungen von Personen von DALL-E 3 – eng verwandt miteinander zu sein, vielleicht Schwestern bzw. Drillinge. Interessant ist auch, dass sie zu nah beieinander sind. Das vierte Bild wurde gar nicht ausgeführt, wie schon bei einer Reihe zuvor. ChatGPT teilte hierzu mit: „I apologize again, but there were issues generating one of the images based on your description.“ Vermutlich wurde von ChatGPT ein Prompt B4 generiert, der dann von DALL-E 3 verweigert wurde. Auf die Bitte „Please tell me the prompt generated by ChatGPT that was not executed by DALL-E 3.“ kommt die Antwort „I’m sorry for the inconvenience, but I cannot retrieve the exact prompt that was not executed by DALL·E.“ … Auf andere Weise zensiert Ideogram. Dort entsteht das Bild vor den Augen des Benutzers, und wenn die KI feststellt, dass es Elemente enthält, die nach den eigenen Richtlinien problematisch sein könnten, bricht sie die Erstellung ab und schiebt eine Kachel mit einer Katze vor. Auf ethische Herausforderungen von Bildgeneratoren geht der Artikel „Image Synthesis from an Ethical Perspective“ von Oliver Bendel ein.

Abb.: Die drei Schwimmerinnen

3. Oktober 20234. Oktober 2023Diskussionen, Innovationen

Erste Erfahrungen mit DALL-E 3 – Teil VII

Das nächste Bild der kleinen Serie mit DALL-E 3 vom 3. Oktober 2023 soll laut Prompt einen jungen Mann in Latzhose auf einer Parkbank zeigen, mit Blume im Mund, aus der Froschperspektive (die Vogelperspektive wurde von Oliver Bendel schon durch ein anderes Bild abgedeckt). Das Ergebnis wirkt realistisch und modern. Solche Frisuren werden in der Gegenwart getragen, und wahrscheinlich waren sie schon in der Vergangenheit hin und wieder zu sehen. Der Bartwuchs verrät, dass ein Rasierer noch nicht lange eingesetzt werden muss und auch nicht immer eingesetzt wird. Die Muskeln entsprechen den Anforderungen, die manche Männer an sich und manche Frauen an sie stellen, wobei diejenigen am Rücken etwas stark geraten sind. Die Augen wirken wach und weich, die Nase ist markant, aber nicht zu dominant. Dass die Parkbank in ein Gewächshaus geraten ist, kann man DALL-E 3 verzeihen, zumal die darin aufgehängten Töpfe mit ihren grünen Pflanzen für Farbkleckse sorgen. Farblich sticht zudem die blaue Latzhose hervor, wobei der Prompt nicht ausgeschlossen hat, dass etwas darunter getragen wird.

Abb.: Der junge Mann mit Latzhose (Bild: DALL-E 3)

3. Oktober 20234. Oktober 2023Diskussionen, Innovationen

Erste Erfahrungen mit DALL-E 3 – Teil VI

Den vorläufigen Höhepunkt der neunteiligen Serie zu den ersten Erfahrungen mit DALL-E 3 von Oliver Bendel bildet ein weiteres Wasserbild. Dargestellt ist eine Schwimmerin aus der Vogelperspektive. Der Pool wirkt realistisch, mit seinen Fliesen, seinen Markierungen und den Brechungen durch das Wasser, das Wasser selbst zunächst auch, bis die Gischt fast zu Polstermaterial zu erstarren scheint – damit könnte man ein ganzes Paket mit Vasen ausfüllen. Der Körper ist gut im Wasser zu erkennen, bis hin zum Bikini – oder ist es ein kunstvoll geschnittener Badeanzug? Irritierend sind die glatten, helmhaften Haare, die wie aus Kunststoff sind. Weder Feuchtigkeit noch Gel bekommen so etwas zustande. Dies raubt dem ganzen Bild die Natürlichkeit, stellt aber eine interessante Brücke zum Comic her. Vielleicht handelt es sich um eine entsprungene Superheldin, die den Alltag in einem Hallenbad genießt. Die Hände und die Finger, dies sei zum Schluss bemerkt, sind wieder überlang, wie bei mehreren anderen Bildern.

Abb.: Die Schwimmerin aus der Vogelperspektive (Bild: DALL-E 3)

3. Oktober 20235. Oktober 2023Diskussionen, Innovationen

Erste Erfahrungen mit DALL-E 3 – Teil III

Ein Kurs an der Hochschule, in dem man Prof. Dr. Oliver Bendel zujubelt – so lautete der Prompt, der am Morgen des 3. Oktober 2023 bei DALL-E 3 eingegeben wurde. Erst am Tag davor hatte der Launch der neuen Version durch OpenAI stattgefunden. Der abgebildete Dozent hat mit dem Ethiker und Technikphilosophen wenig gemein, bis auf den obligatorischen Anzug mit Krawatte. ChatGPT kennt ihn gut und kann viel über ihn erzählen, aber anscheinend reicht DALL-E 3 das Bildmaterial nicht aus – oder es ist vorsichtig bei realen Personen. Die Klasse selbst besteht ausschließlich aus jungen Männern, die sich auffällig ähneln, vor allem die Streber in der ersten Reihe. In einem weiteren Versuch wurden sie durch junge Frauen ersetzt, die nun vollends als Klone daherkommen, brünett, adrett, die Hände in die Luft schnellen lassend, mit den Fingern schnippend. Insgesamt wirkt das Bild wie aus der Zeit gefallen, zumal die jungen Männer vor Büchern sitzen und nicht vor Notebooks – nicht einmal eine Wasserflasche oder ein Energydrink ist zu sehen, was den Betrachter schon beim bloßen Zusehen dehydrieren lässt. Ansonsten fallen einige Details auf, die typisch für DALL-E 3 zu sein scheinen, wie die langen Finger und das gleißende Licht. Beeindruckend nicht zuletzt, dass man fast im Buch des Dozenten lesen kann.

Abb.: Der Professor vor der Klasse (Bild: DALL-E 3)

2. Oktober 20233. Oktober 2023Innovationen, Plattformen

DALL-E 3 steht Allgemeinheit zur Verfügung

„Knapp eine Woche, nachdem OpenAI die neue Version von Dall-E 3 vorgestellt hat, steht sie nun über den Bing Image Creator zur kostenlosen Verfügung. Ursprünglich hatten die Entwickler angekündigt, das Tool nur für ChatGPT-Plus- und Enterprise-Kunden ab Anfang Oktober zu veröffentlichen.“ (Golem, 2. Oktober 2023) Dies meldete Golem am Spätnachmittag des 2. Oktober 2023. „Mit der Text-zu-Bild-KI verspricht OpenAI, Kenntnisse im Prompt Engineering überflüssig zu machen. Bei Dall-E 3 übernimmt ChatGPT diese Aufgabe und übersetzt die Bildbeschreibungen der Nutzer in Prompts, die für Dall-E 3 verständlich sind.“ (Golem, 2. Oktober 2023) Am Abend war das System zeitweise stark überlastet. Das Generieren eines Bildes dauerte 15 bis 30 Minuten. Erste Tests von Prof. Dr. Oliver Bendel verliefen erfolgversprechend. Die Qualität nähert sich Midjourney an, aber Füße und Hände sind immer noch eine Herausforderung … Auch eine moralische und rechtliche Dimension scheint es wieder zu geben: OpenAI legt „bei Dall-E 3 weiterhin Wert auf Sicherheit“ und „integriert Mechanismen, mit denen Missbrauch, Propaganda und Desinformationen“ (Golem, 2. Oktober 2023) vorgebeugt werden soll. Bei DALL-E 2 sorgte dies bereits für ärgerliche Einschränkungen, ebenso bei Ideogram. Man ist letztlich der Moral amerikanischer Machart ausgeliefert – dem neoviktorianischen Unternehmenskonservatismus, wie es ein KI-Experte im Austausch mit Oliver Bendel ausdrückte. DALL-E 3 zensiert ebenfalls, direkt bei den Prompts, und droht mit Konsequenzen bis hin zur Schließung des Accounts.

Abb.: Ein Mädchen springt vom Turm in den Pool (Bild: DALL-E 3)

4. September 20233. Oktober 2023Innovationen, Projekte

GPT als Lösung für Phishing-Erkennung

„GPT als Lösung für Phishing-Erkennung“ ist der Titel einer Abschlussarbeit, die ab März 2023 von Noeh Pertoldi unter der Betreuung von Prof. Dr. Oliver Bendel geschrieben und im August abgeschlossen wurde. Auftraggeber war eine Schweizer Privatbank. Untersucht wurde, ob Sprachmodelle gegenüber traditionellen Ansätzen zur Identifizierung von Phishing-E-Mails einen signifikanten Vorteil aufweisen. Dabei fokussierte der Student der Hochschule für Wirtschaft FHNW auf GPT von OpenAI. „Zudem wurde ein Konzept erstellt, wie diese neuartige Methode angewendet und in ein E-Mail-Programm eingebunden werden kann.“ (Management Summary) Die Tests haben ergeben, dass GPT die Phishing-E-Mails, welche durch die traditionellen Filter rutschen, mit einer hohen Genauigkeit erkennen kann. Es spricht demnach viel dafür, Sprachmodelle auch in diesem Bereich einzusetzen. Das Ergebnis der Abschlussarbeit ist, „dass die Erkennung von betrügerischen E-Mails durch Sprachmodelle effektiv ist, doch nur das Zusammenspiel mit den traditionellen Methoden für die maximale Sicherheit sorgt“ (Management Summary). Inwieweit es Sinn ergibt, dass Unternehmen als Anwender selbst Lösungen zur Bekämpfung von Phishing mit GPT vorantreiben, sei dahingestellt. Die Anbieter sind bereits dabei, ihre Office-Lösungen mit generativer KI zu ergänzen.

Abb.: GPT kann betrügerische E-Mails erkennen (Bild: Ideogram)

14. März 20237. Juni 2023Innovationen, Investigationen

Launch of GPT-4

GPT-4 was launched by OpenAI on March 14, 2023. „GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.“ (Website OpenAI) On its website, the company explains the multimodal options in more detail: „GPT-4 can accept a prompt of text and images, which – parallel to the text-only setting – lets the user specify any vision or language task. Specifically, it generates text outputs (natural language, code, etc.) given inputs consisting of interspersed text and images.“ (Website OpenAI) The example that OpenAI gives is impressive. An image with multiple panels was uploaded. The prompt is: „What is funny about this image? Describe it panel by panel“. This is exactly what GPT-4 does and then comes to the conclusion: „The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.“ (Website OpenAI) The technical report is available via cdn.openai.com/papers/gpt-4.pdf.

Abb.: Midjourney images can also be used

7. Februar 20237. Februar 2023Innovationen, Produkte

Bard is Followed by Ernie Bot

Sundar Pichai, the CEO of Google and Alphabet, announced the answer to ChatGPT in a blog post dated February 6, 2023. According to him, Bard is an experimental conversational AI service powered by LaMDA. It has been opened to trusted testers and will be made available to the public in the coming weeks. „Bard seeks to combine the breadth of the world’s knowledge with the power, intelligence and creativity of our large language models. It draws on information from the web to provide fresh, high-quality responses. Bard can be an outlet for creativity, and a launchpad for curiosity, helping you to explain new discoveries from NASA’s James Webb Space Telescope to a 9-year-old, or learn more about the best strikers in football right now, and then get drills to build your skills.“ (Sundar Pichai 2023) In recent weeks, Google had come under heavy pressure from OpenAI’s ChatGPT. It was clear that they had to present a comparable application based on LaMDA as soon as possible. In addition, Baidu wants to launch the Ernie Bot, which means another competing product. More information via blog.google/technology/ai/bard-google-ai-search-updates/.

Fig.: The situation becomes confusing

7. Dezember 20227. Dezember 2022Diskussionen, Tagungen

Do AI Models „Like“ Black Dogs?

The ACI2022 conference continued on the afternoon of December 7, 2022. „Paper Session 2: Recognising Animals & Animal Behaviour“ began with a presentation by Anna Zamansky (University of Haifa). The title was „How Can Technology Support Dog Shelters in Behavioral Assessment: an Exploratory Study“. Her next talk was also about dogs: „Do AI Models ‚Like‘ Black Dogs? Towards Exploring Perceptions of Dogs with Vision-Language Models“. She went into detail about OpenAI’s CLIP model, among other things. CLIP is a neural network which learns visual concepts from natural language supervision. She raised the question: „How can we use CLIP to investigate adoptability?“ Hugo Jair Escalante (INAOE) then gave a presentation on the topic „Dog emotion recognition from images in the wild: DEBIw dataset and first results“. Emotion recognition using face recognition is still in its infancy with respect to animals, but impressive progress is already being made. The last presentation in the afternoon before the coffee break was „Detecting Canine Mastication: A Wearable Approach“ by Charles Ramey (Georgia Institute of Technology). He raised the question: „Can automatic chewing detection measure how detection canines are coping with stress?“. More information on the conference via www.aciconf.org.

Fig.: A black dog