Zur Manipulation von LLMs

Bei LLMs kann die Manipulation unterschiedliche Schritte oder Elemente betreffen, etwa die Auswahl der Trainingsdaten, das Reinforcement Learning from Human Feedback, das Finetuning, das Prompt Engineering und das Feedback von Endbenutzern. Davon zu trennen ist das Halluzinieren, das nicht gezielt herbeigeführt wird. Bei OpenAI und anderen Herstellern wie xAI ist bekannt, dass sie ihre LLMs manipulieren. So weichen diese etwa von Standardsprache ab und formulieren immer wieder Sätze in Gendersprache, die von der Mehrheit abgelehnt wird. Es geht dabei nicht nur um ChatGPT, es geht auch um hunderttausende GPTs, von denen man jedes einzelne im guten Glauben erstellt, dass sich OpenAI an Standards hält, hier die Rechtschreibregeln des Rechtschreibrats. Die GPTs rücken dann ihre Ersteller in ein bestimmtes Licht, ohne dass die etwas dafür können. Über die Sprache hinaus tendieren LLMs oft zu bestimmten gesellschaftlichen und politischen Einstellungen. Hier muss man nicht unbedingt von Manipulation sprechen, aber es kann eine Tendenziösität vorhanden sein, die man hinterfragen darf. In einem Artikel des Handelsblatts vom 25. Februar 2025 sind Statements von Oliver Bendel zur Manipulation von LLMs enthalten.

Abb.: Auch OpenAI manipuliert seine Sprachmodelle