Wie OpenAI seine LLMs manipuliert

Seit 2024 bemerkt man bei großen Sprachmodellen (Large Language Models, LLMs) verstärkt Gendersprache. Diese entspricht in weiten Teilen (etwa bei der Aufnahme von Sonderzeichen im Wortinneren) nicht der Standardsprache und wird von der Mehrheit der deutschsprachigen Bevölkerung abgelehnt. Dennoch versuchen US-amerikanische Unternehmen wie OpenAI, sie durchzusetzen. Dies passiert mit mehreren Ansätzen: (1) Beim Reinforcement Learning from Human Feedback (RLHF), das Teil des Trainings ist, bewerten Menschen gegenderte Antworten des LLM höher. (2) Über Prompt Engineering auf Systemebene wird das LLM angewiesen, Gendersprache zu benutzen oder inklusiv zu sprechen, wobei vorausgesetzt wird, dass Gendersprache grundsätzlich inklusiv ist, was aber gar nicht der Fall ist. (3) Über Filter und andere Sicherheitsmechanismen werden bestimmte Fragen und Antworten ausgeschlossen. So lässt man kritische Aussagen von Benutzern zur Gendersprache im Dialog einfach verschwinden. Alle drei Ansätze hängen mit den Prinzipien von OpenAI zusammen, die sich wiederum in den „Nutzungsrichtlinien“ widerspiegeln. Dazu gehört z.B. die „Vermeidung toxischer, beleidigender oder manipulativer Sprache“. Das Problem ist, dass Standardsprache bei dem Unternehmen zu Unrecht und in Missachtung wissenschaftlicher Erkenntnisse als toxisch etc. gilt. Guardrails werden vor allem über (3) implementiert, aber auch über (2). Letztlich manipuliert OpenAI mit Hilfe seiner Prinzipien seine LLMs. Es setzt sich über die Haltung und den Sprachgebrauch der Sprachgemeinschaft hinweg und fördert eine Sondersprache, die diskriminierend, dysfunktional, nicht prägnant, unpräzise und unkorrekt ist und die Struktur der Standardsprache beschädigt.

Abb.: Wie OpenAI seine LLMs manipuliert