GPTs are Chatbots for Everyone

On 6 November 2023, OpenAI made so-called GPTs available for ChatGPT Plus users. „GPTs are a new way for anyone to create a tailored version of ChatGPT to be more helpful in their daily life, at specific tasks, at work, or at home – and then share that creation with others. For example, GPTs can help you learn the rules to any board game, help teach your kids math, or design stickers.“ (Blogpost OpenAI, 6 November 2023) According to OpenAI, anyone can easily build their own GPT, without any programming skills. „You can make them for yourself, just for your company’s internal use, or for everyone. Creating one is as easy as starting a conversation, giving it instructions and extra knowledge, and picking what it can do, like searching the web, making images or analyzing data.“ (Blogpost OpenAI, 6 November 2023) Early tests have shown the power of the new feature. ChatGPT suggests a name for the Chatbot, creates the profile picture, and accepts documents with text and literature lists to expand its knowledge of the topic. Since 12 November 2023, a new GPT named Social Robotics Girl is available that provides information about social robotics. It was created by Oliver Bendel and fed by a collection of his articles on the topic. Learn more about GPTs at openai.com/blog/introducing-gpts.

Fig.: A user with her own GPT chatbot (Image: DALL-E 3)

Fünf Bücher mit KI-Kunst und -Literatur

Seit Februar 2023 hat Prof. Dr. Oliver Bendel von der Hochschule für Wirtschaft FHNW fünf kleine KI-generierte Bücher unter einer Creative-Commons-Lizenz herausgebracht. Am 20. Februar wurde „Dass es nur Kunst war, verdeckte die Kunst“ veröffentlicht. Darin finden sich mit ChatGPT (GPT-3.5) produzierte Haikus zusammen mit 3D-Codes (sogenannten JAB Codes, erfunden vom Fraunhofer SIT). Das Cover stammt von DALL-E 2. Am 24. September folgte „ARTIFACTS WITH HANDICAPS“ – dieser Band umfasst elf mit GPT-4 (hochschulinterne Anwendung) generierte Kurzgeschichten zu Bildern mit Imperfektionen von Ideogram. Am 17. Oktober 2023 stellte Oliver Bendel in „ON BEAUTY“ dem Sprachmodell nicht weniger als 26 Fragen zur Schönheit und illustrierte sie mit ebenso vielen Bildern, die mit DALL-E 3 generiert worden waren. „AMERICAN SMILE“ vom 25. Oktober 2023 nimmt sich des Phänomens an, dass DALL-E 3 die Menschen unterschiedlicher Kulturen und Epochen ähnlich lächeln lässt, eben auf amerikanische Weise. Für die Einführung ins Thema wurde ChatGPT (GPT-4) verwendet. „AN AI EXPLAINS BEAUTY““ vom 1. November 2023 verknüpft die Fähigkeiten von DALL-E 3 und ChatGPT (ebenfalls GPT-4). Mit Hilfe des Bildgenerators wurden 24 Bilder mit schönen Dingen, Pflanzen, Tieren, Menschen und Verhaltensweisen erzeugt. Der Textgenerator erklärte dann, was jeweils schön daran ist. Oliver Bendel verfasst seit 40 Jahren experimentelle Literatur. Zunächst entstanden vor allem Gedichte – etwa konkrete Poesie – und Kurzgeschichten. Ab 2007 folgten mehrere Romane, darunter auch Handyromane. Im März 2009 schrieb die ZEIT über ihn: „Der bekannteste Autor von Handyromanen im deutschsprachigen Bereich ist der promovierte Wirtschaftsinformatiker Oliver Bendel aus Zürich.“ Auf Einladung zweier Goethe-Institute tourte er 2015 durch die Niederlande und las Ausschnitte aus seinen Handyromanen und Handyhaikus vor. Das Standardwerk „Die Struktur der modernen Literatur“ von Mario Andreotti widmet seinem Schaffen zwei Seiten. Immer wieder verbindet Oliver Bendel Kunst und Wissenschaft. In seinem aktuellen Artikel „Image synthesis from an ethical perspective“ (Open Access) geht er auf die Biases ein, die sich in Bildern von DALL-E, Midjourney, Stable Diffusion und Co. zeigen.

Abb.: Eine junge Frau am Strand (Bild: DALL-E 3)

An AI Explains Beauty

In his new project, Oliver Bendel first created images using DALL-E 3. For consistency, he structured the prompts similarly in each case, making sure to keep them as general as possible. They covered a range of topics: things, plants, animals, people, and so on. From the suggestions provided by DALL-E 3, he chose one and combined it with the prompt from ChatGPT (which serves as the interface to DALL-E 3) to create the basis of the book „AN AI EXPLAINS BEAUTY“. Oliver Bendel then engaged ChatGPT (using the image upload feature) to explain the beauty of the things, plants, animals, humans, and so on. At first, the AI was reluctant to offer insights about people, but with some encouragement, it obliged. The results of these inquiries are also documented in the little book. They represent the real sensation. Because ChatGPT can recognize and describe individual objects in the image, and this with a view to predetermined aspects. The whole project was done on November 1, 2023, including the publication. The little book can be downloaded here.

Fig.: The cover of the little book

Vier Bücher mit KI-Kunst und -Literatur

Seit Februar 2023 hat Oliver Bendel vier kleine KI-generierte Bücher herausgebracht. Am 20. Februar wurde „Dass es nur Kunst war, verdeckte die Kunst“ veröffentlicht. Darin finden sich mit ChatGPT produzierte Haikus zusammen mit 3D-Codes. Am 24. September folgte „ARTIFACTS WITH HANDICAPS“ – dieser Band umfasst elf mit GPT-4 generierte Kurzgeschichten zu Bildern mit Imperfektionen von Ideogram. Am 17. Oktober 2023 stellte Oliver Bendel in „ON BEAUTY“ dem Sprachmodell nicht weniger als 26 Fragen zur Schönheit und illustrierte sie mit ebenso vielen Bildern, die mit DALL-E 3 generiert worden waren. „AMERICAN SMILE“ vom 25. Oktober 2023 nimmt sich des Phänomens an, dass DALL-E 3 die Menschen unterschiedlicher Kulturen und Epochen ähnlich lächeln lässt, eben auf amerikanische Weise. Oliver Bendel verfasst seit 40 Jahren experimentelle Literatur. Zunächst entstanden vor allem Gedichte – etwa konkrete Poesie – und Kurzgeschichten. Ab 2007 folgten mehrere Romane, darunter auch Handyromane. Im März 2009 schrieb die ZEIT über ihn: „Der bekannteste Autor von Handyromanen im deutschsprachigen Bereich ist der promovierte Wirtschaftsinformatiker Oliver Bendel aus Zürich.“ Auf Einladung zweier Goethe-Institute tourte er 2015 durch die Niederlande und las Ausschnitte aus seinen Handyromanen und Handyhaikus vor. Das Standardwerk „Die Struktur der modernen Literatur“ widmet seinem Schaffen zwei Seiten.

Abb.: Mädchen im Goldfischglas mit unmöglicher Position (Bild: DALL-E 3)

Grundlagen zu Textgeneratoren

„Textgeneratoren sind Anwendungen, die auf künstlicher Intelligenz (KI) beruhen und nach einem Input des Benutzers (einem Prompt) alle möglichen Texte hervorbringen, zusammenfassen, bewerten, übersetzen, editieren und paraphrasieren. Sie können ebenso Artikel und Gedichte schreiben wie Geschichten erzählen. Dabei kann man ihnen Stile, Formate und Längen vorgeben. Zudem sind sie als Dialogsysteme nutzbar, im Sinne von Chatbots bzw. Sprachassistenten, die man u.a. in Roboter – Kollaborationsroboter oder Serviceroboter – integrieren kann.“ Mit diesen Worten beginnt ein Beitrag von Prof. Dr. Oliver Bendel, der am 26. Oktober 2023 im Gabler Wirtschaftslexikon erschienen ist. Am Ende heißt es: „Textgeneratoren eröffnen Laien wie Experten neue Perspektiven. Sie tragen zu einer Professionalisierung von Anwendungsbereichen bei und erhöhen Effizienz und Effektivität. Zugleich etablieren einige Textgeneratoren einen bestimmten Stil und Ausdruck und frönen in ihrer Vorsichtigkeit und Unverbindlichkeit der Wokeness. Die Multimodalität bringt neue Möglichkeiten mit sich und verbindet virtuellen und physischen Raum, nicht nur bei Textgeneratoren, die Bild- und Audiodaten verarbeiten können, sondern auch bei Industrie- und Servicerobotern, deren Bilddaten in die Sprachmodelle integriert werden.“ Es schließen sich ethische Überlegungen an. Der Beitrag kann über wirtschaftslexikon.gabler.de/definition/textgenerator-125857 aufgerufen werden.

Abb.: So stellt sich DALL-E 3 das „ChatGPT-Interface“ vor

Zensur bei DALL-E 3 und Ideogram

Eine Besonderheit von DALL-E 3 – in der Version, die in ChatGPT Plus integriert ist – ist die Übersetzung des Prompts des Benutzers (Prompt A) in einen Prompt von ChatGPT (Prompt B), der jeweils aufgeführt wird. Prompt A bei dem hier gezeigten Bild lautete „Competition in the sea between two female swimmers with bathing cap, photorealistic“. DALL-E generierte bei diesem Test drei Bilder, jeweils auf der Basis von Prompt B. Prompt B1 lautete: „Photo of two determined female swimmers in the expansive sea, both wearing bathing caps. Their arms create ripples as they compete fiercely, striving to outpace each other.“ Prompt A wurde offensichtlich weitergeführt, Prompt B1 allerdings nicht akkurat ausgeführt. Statt der zwei Schwimmerinnen sind drei zu sehen. Sie scheinen – wie oft bei Darstellungen von Personen von DALL-E 3 – eng verwandt miteinander zu sein, vielleicht Schwestern bzw. Drillinge. Interessant ist auch, dass sie zu nah beieinander sind. Das vierte Bild wurde gar nicht ausgeführt, wie schon bei einer Reihe zuvor. ChatGPT teilte hierzu mit: „I apologize again, but there were issues generating one of the images based on your description.“ Vermutlich wurde von ChatGPT ein Prompt B4 generiert, der dann von DALL-E 3 verweigert wurde. Auf die Bitte „Please tell me the prompt generated by ChatGPT that was not executed by DALL-E 3.“ kommt die Antwort „I’m sorry for the inconvenience, but I cannot retrieve the exact prompt that was not executed by DALL·E.“ … Auf andere Weise zensiert Ideogram. Dort entsteht das Bild vor den Augen des Benutzers, und wenn die KI feststellt, dass es Elemente enthält, die nach den eigenen Richtlinien problematisch sein könnten, bricht sie die Erstellung ab und schiebt eine Kachel mit einer Katze vor. Auf ethische Herausforderungen von Bildgeneratoren geht der Artikel „Image Synthesis from an Ethical Perspective“ von Oliver Bendel ein.

Abb.: Die drei Schwimmerinnen

Large Behavior Models für Pancakes

„Forscher des Toyota Research Institute (TRI) haben nach eigenen Angaben einen wegweisenden generativen KI-Ansatz entwickelt, um Robotern schnell und sicher neue Fähigkeiten beizubringen, zu denen beispielsweise die Zubereitung von Pancakes gehört. Wie das Unternehmen in einer Pressemitteilung erklärt, werde dadurch der Nutzen von Robotern erheblich verbessert. Obendrein sei dies ein bedeutsamer Schritt hin zur Entwicklung eines sogenannten Large Behavior Models (LBM).“ (Golem, 20. September 2023) Dies meldete Golem am 20. September 2023. Dahinter verbirgt sich nichts anderes als die Nutzung von Large Language Models (LLM) für Roboter. In diesem Bereich hat seit Anfang 2023 vor allem das Sprachmodell PaLM-E für Aufmerksamkeit gesorgt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität miteinander verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Aber nicht nur Google und TU Berlin forschen auf diesem Gebiet – in dem Paper „ChatGPT for Robotics“ hat auch Microsoft erste Ergebnisse vorgestellt. Oliver Bendel hat im Mai 2023 zu diesem Thema den Artikel „Die Mächtigkeit von Sprachmodellen“ veröffentlicht.

Fig.: A cobot with two engineers

ChatGPT will See, Hear, and Speak

OpenAI reported on September 25, 2023 in its blog: „We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.“ (OpenAI Blog, 25 September 2023) The company gives some examples of using ChatGPT in everyday life: „Snap a picture of a landmark while traveling and have a live conversation about what’s interesting about it. When you’re home, snap pictures of your fridge and pantry to figure out what’s for dinner (and ask follow up questions for a step by step recipe). After dinner, help your child with a math problem by taking a photo, circling the problem set, and having it share hints with both of you.“ (OpenAI Blog, 25 September 2023) But the application can not only see, it can also hear and speak: „You can now use voice to engage in a back-and-forth conversation with your assistant. Speak with it on the go, request a bedtime story for your family, or settle a dinner table debate.“ (OpenAI Blog, 25 September 2023) More information via openai.com/blog/chatgpt-can-now-see-hear-and-speak.

Fig.: ChatGPT will see you (Image: Ideogram)

Artifacts with Handicaps

The technology philosopher and writer Oliver Bendel published the book „ARTIFACTS WITH HANDICAPS“ on 24 September 2023. The information about the author reads: „Oliver Bendel featuring Ideogram and GPT-4“. In fact, the entire work was created with the help of generative AI. It consists of 11 images, each followed by a short story. This one deals with the imperfection of representation. Once a hand looks like that of a mummy, once a skateboard floats in the air above the wheels. But there is also one or another representation that looks perfect. In this case, the story explains what is different about the person, their history, or their behavior. Ultimately, it is about the otherness and the fact that this is in fact a special feature. The book is freely available and can be distributed and used as desired, with credit given to the authors, i.e. the artist and the AI systems. Oliver Bendel has been writing experimental literature, including digital literature, for 40 years. As of 2007, he was one of the best-known cell phone novelists in Europe. In 2010, he attracted attention with a volume of haiku – „handyhaiku“ – in which the poems were printed in the form of QR codes. In 2020, the volume „Die Astronautin“ was published, in which the poems are printed in the form of 3D codes. The standard work „Die Struktur der modernen Literatur“ („The Structure of Modern Literature“) by Mario Andreotti devotes two pages to the writer’s work.

Fig.: One of the images (Image: Ideogram)

Ethische Implikationen generativer KI

Am 20. Juni 2023 hält Prof. Dr. Oliver Bendel einen Onlinevortrag für LeLa, das Lernlabor Hochschuldidaktik für Digital Skills, ein Kooperationsprojekt der fünf Zürcher Hochschulen ETH Zürich, PHZH, UZH, ZHAW und ZHdK. „Ethische Implikationen generativer KI“ sind das Thema. Zunächst klärt der Technikphilosoph den Begriff der generativen KI (engl. „generative AI“). Dann stellt er aus Sicht von Informations- und Maschinenethik verschiedene Überlegungen zu diesem Bereich an, wobei er vor allem auf ChatGPT fokussiert. So ist die Frage, woher die Daten für das zugrunde liegende Sprachmodell kommen und unter welchen Bedingungen das Reinforcement Learning from Human Feedback abläuft. Zudem dürfte relevant sein, welche Daten man beim Prompt preisgibt und welche Prompts auf welche Art und Weise zurückgewiesen werden. Ein weiteres Problemfeld ist das Halluzinieren der Sprachmodelle bzw. der darauf basierenden Anwendungen. Diese verdrehen Fakten und erfinden Referenzen. Mit Visual ChatGPT soll man über Texteingaben Bilder generieren und dann einzelne Elemente editieren können. Solche und andere Bildgeneratoren wie DALL-E, Stable Diffusion und Midjourney werfen wiederum zahlreiche ethische Fragen auf. GPT-3 und GPT-4 bzw. ChatGPT sind nicht nur für bzw. als Chatbots und Contentgeneratoren relevant, sondern auch für Industrie- und Serviceroboter. In diesem Bereich hat indes vor allem das Sprachmodell PaLM-E Aufmerksamkeit erregt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Dabei sind wiederum Herausforderungen vorhanden, etwa mit Blick auf Verlässlichkeit und Haftung. Weitere Informationen zur Reihe „AI or what the ChatGPT“ über dizh.ch/event/was-sind-die-ethische-implikationen-generativer-ki/.

Abb.: Mit Midjourney erstelltes Bild einer Schnorchlerin

Die Mächtigkeit von Sprachmodellen

Am 26. Mai 2023 ist Heft 4/2023 der Zeitschrift messtec drives Automation erschienen. Darin enthalten ist der Beitrag „Die Mächtigkeit von Sprachmodellen“ von Prof. Dr. Oliver Bendel. Er geht auf Anwendungen ein, die man noch wenig kennt, die aber relevant sein werden für Service- und Industrieroboter und für Brain-Computer-Interfaces. In diesem Bereich hat vor allem das Sprachmodell PaLM-E für Aufmerksamkeit gesorgt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität miteinander verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Aber nicht nur Google und TU Berlin forschen auf diesem Gebiet – in dem Paper „ChatGPT for Robotics“ hat auch Microsoft erste Ergebnisse vorgestellt. Sprachmodelle mit solchen Wahrnehmungs- und Steuerungsmöglichkeiten wären interessant für Lio und Optimus oder für soziale Roboter im Bildungsbereich, die nicht nur kommunizieren, sondern in vielfältiger Weise interagieren. Wichtig ist, dass den Fähigkeiten bei der Wahrnehmung und Steuerung entsprechende Fähigkeiten der Motorik gegenüberstehen. Der Zweiseiter kann über www.wileyindustrynews.com/messtec-drives-automation/messtec-drives-automation-04-23 heruntergeladen werden.

Abb.: Ein Ausschnitt aus der ersten Seite des Artikels

Ethische Implikationen von ChatGPT

Am 26. Mai 2023 hält Prof. Dr. Oliver Bendel einen Gastvortrag beim scil-Modul „Dialogorientierte Lern- und Assistenzsysteme“ an der Universität St. Gallen. Der Titel lautet „Ethische Implikationen von ChatGPT“. Aus Sicht von Informations- und Maschinenethik werden verschiedene Überlegungen zu ChatGPT angestellt. Zunächst ist die Frage, woher die Daten für das zugrunde liegende Sprachmodell kommen und unter welchen Bedingungen das Reinforcement Learning from Human Feedback abläuft. Zudem dürfte relevant sein, welche Daten man beim Prompt preisgibt und welche Prompts auf welche Art und Weise zurückgewiesen werden. Ein weiteres Problemfeld ist das Halluzinieren der Sprachmodelle bzw. der darauf basierenden Anwendungen. Diese verdrehen Fakten und erfinden Referenzen. Nicht zuletzt ergeben sich für zahlreiche Anwendungsfelder wie Aus- und Weiterbildung besondere Herausforderungen … Mit Visual ChatGPT soll man über Texteingaben Bilder generieren und dann einzelne Elemente editieren können. Solche und andere Bildgeneratoren wie DALL-E, Stable Diffusion und Midjourney werfen wiederum zahlreiche ethische Fragen auf. GPT-3 und GPT-4 bzw. ChatGPT sind nicht nur für bzw. als Chatbots und Contentgeneratoren relevant, sondern auch für Industrie- und Serviceroboter. In diesem Bereich hat indes vor allem das Sprachmodell PaLM-E Aufmerksamkeit erregt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Dabei sind wiederum Herausforderungen vorhanden, etwa mit Blick auf Verlässlichkeit und Haftung. Oliver Bendel hat vor einem Vierteljahrhundert an der Universität St. Gallen gearbeitet – als Leiter des CC E-Learning – und geforscht, zu Conversational Agents und Embodied Conversational Agents in Lernumgebungen, sogenannten Pedagogical Agents. Weitere Informationen zum scil über www.scil.ch.

Abb.: Auch Pepper hat man schon mit ChatGPT verbunden (Foto: Sara Zarubica)

Von Halluzinationen befreit?

„Das Heidelberger KI-Start-up Aleph Alpha hat nach eigenen Angaben erstmals einen Meilenstein auf dem Weg zu inhaltlich korrekter, erklärbarer und vertrauenswürdiger künstlicher Intelligenz erreicht. Eine nun verfügbare Erweiterung des hauseigenen Sprachmodells Luminous sei in der Lage, Zusammenhänge in Informationen und faktische Korrektheit auf Basis von gesicherten Fakten nachzuvollziehen …“ (Spektrum, 13. April 2023) Dies schrieb Spektrum der Wissenschaft am 13. April 2023 unter Berufung auf das Unternehmen. „Gleichzeitig sei das System in der Lage, darzustellen, welche Textstellen in einer Quelle die generierte Antwort verursacht haben oder im Widerspruch dazu stehen.“ (Spektrum, 13. April 2023) ChatGPT ist dafür bekannt, dass es nicht nur in seinen Aussagen halluziniert, etwa wenn es Falschinformationen zu Personen liefert, sondern auch in seinen Verweisen – so werden URLs generiert, die auf den ersten Blick plausibel aussehen und deren Domain oft korrekt ist, die dann aber – da der Pfad erfunden ist – ins Leere verweisen. Grundsätzlich ist die Behauptung von Faktizität und der Erfüllung von Anforderungen der Explainable AI und der Trustworthy AI in diesem Zusammenhang mit Vorsicht zu genießen – aber es wäre erfreulich, wenn Luminous weniger eine Münchhausen-Maschine wäre als der eine oder andere Konkurrent und von Halluzinationen befreit werden könnte.

Abb.: Von Halluzinationen befreit?

Launch of GPT-4

GPT-4 was launched by OpenAI on March 14, 2023. „GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.“ (Website OpenAI) On its website, the company explains the multimodal options in more detail: „GPT-4 can accept a prompt of text and images, which – parallel to the text-only setting – lets the user specify any vision or language task. Specifically, it generates text outputs (natural language, code, etc.) given inputs consisting of interspersed text and images.“ (Website OpenAI) The example that OpenAI gives is impressive. An image with multiple panels was uploaded. The prompt is: „What is funny about this image? Describe it panel by panel“. This is exactly what GPT-4 does and then comes to the conclusion: „The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.“ (Website OpenAI) The technical report is available via cdn.openai.com/papers/gpt-4.pdf.

Abb.: Midjourney images can also be used

Was ist und kann ein Prompt?

„Ein Prompt ist bei generativer KI (Generative AI) ein Input des Benutzers, zu dem das System einen Output erzeugt. Ein textbasierter Prompt kann Wörter, Buchstaben, Sonderzeichen, Zahlen und Links enthalten. Um das gewünschte Ergebnis zu bekommen, muss der Prompt möglichst eindeutig und umfassend sein. Ein einfaches Beispiel im Falle von Bildgeneratoren ist ‚3 junge Frauen vor einem See, fotorealistisch‘, wobei der erste Teil den Inhalt angibt, der zweite den Stil. Wenn Dialoge vorgesehen sind, wie bei Textgeneratoren wie ChatGPT und Bildgeneratoren wie Visual ChatGPT, kann mehrmals eine Eingabe erfolgen, um das Ergebnis anzupassen. Auch das Verweisen auf Bilder ist möglich. Zuweilen sind negative Prompts erlaubt, die etwas ausschließen.“ Mit diesen Worten beginnt ein neuer Beitrag im Gabler Wirtschaftslexikon, erschienen am 14. März 2023. In den folgenden Absätzen wird auf Prompt Engineering und Prompt-Plattformen eingegangen. Am Ende wird die Perspektive der Ethik eingenommen: „Dass generative KI bestimmte Anfragen ablehnt, aus moralischen, rechtlichen oder ideologischen Gründen, ist Thema von Informationsethik und Medienethik. Rechtsethik, Rechtswissenschaft und Rechtsprechung untersuchen, inwieweit Prompts schützenswertes geistiges Eigentum darstellen.“ Der Beitrag von Oliver Bendel kann über wirtschaftslexikon.gabler.de/definition/prompt-125087 abgerufen werden.

Abb.: Midjourney generiert ein Bild mit drei jungen Frauen vor einem See

Mit Visual ChatGPT Bilder generieren und editieren

Forscher von Microsoft arbeiten an einer neuen Anwendung auf der Basis von ChatGPT und Lösungen wie Stable Diffusion. Mit Visual ChatGPT soll man man über Texteingaben Bilder generieren und dann einzelne Elemente editieren können. In ihrem Paper „Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models“ schreiben Chenfei Wu und seine Mitautoren: „We build a system called Visual ChatGPT, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 1) sending and receiving not only languages but also images 2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps“ – und, nicht zu vergessen: „3) providing feedback and asking for corrected results“ (Wu et al. 2023). Beispielsweise lässt man mit einem entsprechenden Prompt das Bild einer Landschaft erstellen, mit blauem Himmel, Hügeln, Wiesen, Blumen und Bäumen. Dann weist man Visual ChatGPT mit einem weiteren Prompt an, die Hügel flacher zu machen und den Himmel abendlicher und bewölkter. Zudem kann man das Programm fragen, welche Farbe die Blumen haben, und diese mit einem weiteren Prompt einfärben. Ein letzter Prompt lässt die Bäume herbstlicher erscheinen. Das Paper kann über arxiv.org heruntergeladen werden.

Abb.: Eine Landschaft mit Bäumen und Blumen

Wie Sprachmodelle für die Steuerung von Haushaltsrobotern genutzt werden können

Forscher von Google und der TU Berlin haben am 6. März 2023 ein verkörpertes, multimodales Sprachmodell mit dem Namen PaLM-E vorgestellt, das virtuelle und physische Welt verbindet. So kann man per Spracheingabe einen Haushaltsroboter steuern und ihn dazu bringen, bestimmte Gegenstände zu holen oder andere Tätigkeiten zu verrichten. Der Prompt kann dabei vom Benutzer spontan aus seiner eigenen Beobachtung der Umwelt abgeleitet werden. Die Idee der PaLM-E-Architektur besteht laut Projektwebsite darin, kontinuierliche, verkörperte Beobachtungen wie Bilder, Zustandseinschätzungen oder andere Sensormodalitäten in den Spracheinbettungsraum eines vortrainierten Sprachmodells zu integrieren. Im Beispielvideo lautet die Instruktion in deutscher Übersetzung: „Bring mir die Reischips aus der Schublade“. Golem schreibt in einem Artikel: „Dazu analysiert Palm-E die Daten der Roboterkamera, ohne dass eine vorverarbeitete Szenendarstellung erforderlich ist. Damit entfällt die Notwendigkeit, dass ein Mensch die Daten vorverarbeitet oder kommentiert, was eine autonomere Robotersteuerung ermöglicht.“ (Golem, 10. März 2023) Im Video fährt der Roboter – ein Roboterarm auf einer mobilen Plattform, ganz ähnlich wie Lio – zur Schublade und entnimmt ihr die Packung. In dem Paper „ChatGPT for Robotics: Design Principles and Model Abilities“ von Microsoft-Forschern wird eine ähnliche Strategie verfolgt, wobei ChatGPT verwendet wird, das wiederum auf GPT-3 basiert. Allerdings handelt es sich um einen indirekten Ansatz, bei dem Code generiert wird. Das Paper zu PaLM-E kann hier heruntergeladen werden.

Abb.: Ein Roboterarm (Foto: F&P Robotics)

Siri, Roboter und Cyborgs im Zentrum Paul Klee

Im Rahmen des Themenwochenendes „Wenn der Mensch zur Maschine wird“ fanden am 5. März 2023 am Zentrum Paul Klee zur Ausstellung „Paul Klee. Vom Rausch der Technik“ zwei Gespräche statt. „Cyborgs – die besseren Menschen?“ war der Titel des ersten, zwischen Prof. Dr. Oliver Bendel (Wirtschaftsinformatiker und Technikphilosoph) und Fabienne Eggelhöfer (Chefkuratorin). Das zweite mit dem Titel „Siri spricht über Klee“ führte Jane Mumford (Kabarettistin, Komikerin, Musikerin und Illustratorin) mit dem Sprachassistenten von Apple. Sie bezog auch ChatGPT ein, wobei die Stimme von einem Schauspieler geliehen wurde. Im Zusammenhang mit dem System von OpenAI stellte sie drei Haikus aus dem Band „Dass es nur Kunst war, verdeckte die Kunst“ von Oliver Bendel vor. Mit Hilfe geeigneter Prompts hatte er ChatGPT erstaunliche Ergebnisse entlockt. Das Publikum spendete nach beiden Gesprächen lautstarken Applaus.

Abb.: Jane Mumford im Zentrum Paul Klee

ChatGPT bei Scobel

Am 2. März 2023 sind Prof. Dr. Doris Weßels (Fachhochschule Kiel), Prof. Dr. Oliver Bendel (Hochschule für Wirtschaft FHNW) und Prof. Dr. Kristian Kersting (TU Darmstadt) zu Gast bei Gerd Scobel. Die Sendung dreht sich um ChatGPT und das zugrundeliegende GPT-3. Aufgezeichnet wurde sie am Abend des 28. Februar 2023 im Studio in Köln. Erläutert werden die technologischen Grundlagen und die gesellschaftlichen Auswirkungen. Doris Weßels erwähnt die Veränderungen, die sich an den Hochschulen ergeben, und spricht sich gegen ein Verbot des Programms aus. Oliver Bendel geht darauf ein, dass sich die Kompetenzen der Studenten und Studentinnen verschieben. Sie nehmen den automatisch generierten Content und redigieren und strukturieren ihn. Die Sprache kommt auch auf den kleinen Haiku-Band „Dass es nur Kunst war, verdeckte die Kunst“ von Oliver Bendel. Produziert wurde er mit Hilfe von ChatGPT. Abgedruckt sind die Inputs (Prompts) und Outputs (hier die Haikus). Der Informations- und Maschinenethiker ist der Überzeugung, dass KI imstande ist, Schönheit zu produzieren. Weitere Informationen über www.3sat.de/wissen/scobel/scobel—kulturschock-durch-ki-100.html.

Abb.: In Köln

Generative KI im Überblick

„Generative KI (‚KI‘ steht für ‚künstliche Intelligenz‘) ist ein Sammelbegriff für KI-basierte Systeme, mit denen auf scheinbar professionelle und kreative Weise alle möglichen Ergebnisse produziert werden können, etwa Bilder, Video, Audio, Text, Code, 3D-Modelle und Simulationen. Menschliche Fertigkeiten sollen erreicht oder übertroffen werden. Generative KI kann Schüler, Studenten, Lehrkräfte, Büromitarbeiter, Politiker, Künstler und Wissenschaftler unterstützen und Bestandteil von komplexeren Systemen sein. Man spricht auch, dem englischen Wort folgend, von Generative AI, wobei ‚AI‘ die Abkürzung für ‚Artificial Intelligence‘ ist.“ Mit diesen Worten beginnt ein Beitrag, der am 22. Februar 2023 im Gabler Wirtschaftslexikon erschienen ist. Es werden Informationen zu Entwicklung und Hintergrund sowie einige Beispiele für Anwendungen gegeben. Am Ende wird die Perspektive der Ethik eingenommen, unter besonderer Berücksichtigung der Informationsethik. Der Beitrag von Oliver Bendel kann über wirtschaftslexikon.gabler.de/definition/generative-ki-124952 abgerufen werden.

Abb.: Midjourney generiert ein Bild einer Schnorchlerin im Meer

ChatGPT und Co. als Münchhausen-Maschinen?

Der Lügenbot wurde 2013 von Prof. Dr. Oliver Bendel im Kontext der Maschinenethik ausgedacht und 2016 von seinem damaligen Projektmitarbeiter und Studenten Kevin Schwegler umgesetzt. Vorgestellt wurde er auf KI-Konferenzen an der Stanford University und in Krakau. Der LIEBOT, wie sein englischer Name lautet, suchte auf eine Frage des Benutzers eine wahre oder richtige Antwort und manipulierte diese nach einer von sieben verschiedenen Strategien. Er behauptete z.B. im Sommer 2016, dass Donald Trump der Präsident der USA sei. Oliver Bendel sprach auch von Münchhausen-Maschinen. Heutzutage gibt es Chatbots und Generative-KI-Systeme wie ChatGPT, die auf Machine Learning beruhen und die immer wieder die Unwahrheit sagen, allerdings ohne dass ihnen die Absicht dazu vermittelt wurde. So werden Angaben zu Personen hinzugedichtet und Quellen erfunden. Zu diesem Thema befragte Technology Review den Informations- und Maschinenethiker aus Zürich. Dabei ging es auch um seine damalige Forschung zu Münchhausen-Maschinen. Mit Chatbots, Sprachassistenten und sozialen Robotern befasst sich Oliver Bendel bereits seit einem Vierteljahrhundert. Sie waren auch der Gegenstand seiner Doktorarbeit, die er an der Universität St. Gallen verfasste und die Ende 2002 abgeschlossen und Anfang 2003 angenommen wurde. Das Interview wurde am 22. Februar 2023 veröffentlicht und kann hier abgerufen werden.

Abb.: Oliver Bendel bei einem Panel der Deutschlandstiftung (Foto: Deutschlandstiftung Integration)

KI-generierte Haikus

Seit 2010 hat Oliver Bendel mehrere Bände mit Haikus und anderen Gedichten veröffentlicht, wobei meistens das Handy eine wichtige Rolle gespielt hat: Es handelte sich entweder um Handyliteratur wie bei „stöckelnde dinger“ (2010), oder im Buch waren 2D- oder 3D-Codes abgedruckt, die die Gedichte enthielten, wie bei „handyhaiku“ (2010) und „Die Astronautin“ (2020). Im Februar 2023 entstand der Band „Dass es nur Kunst war, verdeckte die Kunst“. Die Haikus sind der Output von ChatGPT, bei wechselndem Input. Sie greifen die Themen der vorangehenden Bände auf, erzählen von Avataren, Hologrammen, Robotern und Astronautinnen. „ChatGPT“ steht für „Generative Pre-trained Transformer“. Es handelt sich um einen Chatbot (bzw. ein System zum Produzieren von Content) von OpenAI, der seit Ende 2022 genutzt werden kann. Die Trainingsdaten stammen aus Foren, Artikeln, Büchern und gesprochener Sprache. Benutzt wird eine Form von Machine Learning, nämlich Reinforcement Learning from Human Feedback (RLHF) – der Mensch ist also im Spiel. Mit diesem Tool wurden, wie gesagt, die Haikus des Bands produziert. Manchmal wurden zu einem Input mehrere Resultate generiert und dann eines davon ausgewählt. Trotz der präzisen Anweisungen scheint ChatGPT nicht in der Lage zu sein, die Silbenanzahl durchgehend korrekt umzusetzen, übrigens auch nicht dann, wenn man ein Haiku als Vorbild eingegeben hat. Die Inputs und die Outputs, also die Haikus, wurden dann noch in JAB Codes umgewandelt. Der Band wurde am 20. Februar 2023 veröffentlicht und kann hier kostenlos heruntergeladen werden.

Abb.: Das Cover des Bands