Apple stellt MGIE vor

Apple hat im Februar 2024 der Öffentlichkeit seine KI-gestützte Bildbearbeitungssoftware namens MGIE vorgestellt. Die Abkürzung steht für „MLLM-Guided Image Editing“. MGIE ermöglicht es Benutzern, ihre Bildbearbeitungen mit natürlicher Sprache zu steuern. Es verwendet multimodale Sprachmodelle (MLLMs), um Befehle zu interpretieren und Pixelmanipulationen durchzuführen. Das System generiert keine neuen Bilder, sondern modifiziert bestehende. Interessierte können MGIE auf Huggingface mit niedrig aufgelösten Ergebnissen testen. Allerdings kann es sehr lange Wartezeiten geben. Das Paper „Guiding Instruction-based Image Editing via Multimodal Large Language Models“ von Tsu-Jui Fu, Wenze Hu, Xianzhi Du et al. erklärt die Details der Entwicklung. Die Autoren betonen, dass die anweisungsbasierte Bildbearbeitung die Kontrollierbarkeit und Flexibilität der Bildmanipulation verbessert.

Abb.: Bilder können mit Sprachbefehlen bearbeitet werden (Bild: DALL-E 3)