Video zum VISUAL-Projekt

Zum Projekt VISUAL liegt seit 29. August 2025 ein Video vor, das das System im Betrieb zeigt. „VISUAL“ steht für „Virtual Inclusive Safaris for Unique Adventures and Learning“. Überall auf der Welt gibt es Webcams, die wilde Tiere zeigen. Sehende können sie nutzen, um bequem vom Sofa aus auf Foto- bzw. Videosafari zu gehen. Blinde und sehbehinderte Menschen sind dabei im Nachteil. Im Projekt wurde im Rahmen von Inclusive AI ein Prototyp speziell für sie entwickelt. Es werden weltweit öffentliche Webcams angezapft, die auf Wildtiere gerichtet sind. Man kann sich zwischen mehreren Lebensräumen auf dem Boden oder im Wasser entscheiden. Zudem kann man „Adult“ oder „Child“ als Profil und eine Rolle („Safari Adventurer“, „Field Scientist“, „Calm Observer“) auswählen. Wenn man das Livevideo aufruft, werden drei Screenshots angefertigt und zu einem Bündel zusammengefügt. Dieses wird von GPT-4o, einem MLLM, analysiert und evaluiert. Der Benutzer bekommt dann die Beschreibung der Szene und der Aktivitäten vorgesprochen. Das Projekt dürfte eines der ersten sein, das Inclusive AI mit neuen Ansätzen der Animal-Computer Interaction (ACI) verbindet. Das Video kann über www.informationsethik.net/videos/ abgerufen werden.

Abb.: Das VISUAL-System

Abschluss des Projekts VISUAL

Am 31. Juli 2025 fand die Abschlusspräsentation des Projekts VISUAL statt. Initiiert wurde dieses von Prof. Dr. Oliver Bendel von der Hochschule für Wirtschaft FHNW. Durchgeführt wurde es von Doris Jovic, die ihren Bachelor in Business Information Technology (BIT) in Basel macht. „VISUAL“ steht für „Virtual Inclusive Safaris for Unique Adventures and Learning“. Überall auf der Welt gibt es Webcams, die wilde Tiere zeigen. Sehende können sie nutzen, um bequem vom Sofa aus auf Foto- bzw. Videosafari zu gehen. Blinde und sehbehinderte Menschen sind dabei im Nachteil. Im Projekt wurde im Rahmen von Inclusive AI ein Prototyp speziell für sie entwickelt. Es werden weltweit öffentliche Webcams angezapft, die auf Wildtiere gerichtet sind. Man kann sich zwischen mehreren Lebensräumen auf dem Boden oder im Wasser entscheiden. Zudem kann man „Adult“ oder „Child“ als Profil und eine Rolle („Safari Adventurer“, „Field Scientist“, „Calm Observer“) auswählen. Wenn man das Livevideo aufruft, werden drei Screenshots angefertigt und zu einem Bündel zusammengefügt. Dieses wird von GPT-4o, einem multimodalen großen Sprachmodell, analysiert und evaluiert. Der Benutzer bekommt dann die Beschreibung der Szene und der Aktivitäten vorgesprochen. Die Bedürfnisse von blinden und sehbeeinträchtigten Personen wurden über eine barrierefreie Onlineumfrage eingeholt, bei der der FHNW-Mitarbeiter Artan Llugaxhija unterstützte. Das Projekt dürfte eines der ersten sein, das Inclusive AI mit neuen Ansätzen der Animal-Computer Interaction (ACI) verbindet.

Abb.: Doris Jovic bei der Abschlusspräsentation

Online Survey on the VISUAL Project

On June 19, 2025, the interim presentation of the VISUAL project took place. The initiative was launched by Prof. Dr. Oliver Bendel from the FHNW School of Business. The project assistant is Doris Jovic, who is currently pursuing her Bachelor’s degree in Business Information Technology (BIT). „VISUAL“ stands for „Virtual Inclusive Safaris for Unique Adventures and Learning“. All over the world, webcams provide real-time footage of wild animals. Sighted people can use them to go on photo or video safaris from the comfort of their homes. However, blind and visually impaired individuals are at a disadvantage. In the spirit of Inclusive AI – a concept and movement that includes tools like Be My Eyes and its Be My AI feature – this project aims to create an accessible solution. By August 2025, the goal is to develop a prototype that allows blind and visually impaired users to receive audio descriptions of webcam images or videos of wildlife. The system analyzes and interprets the footage using a multimodal large language model (LLM), presenting the results via an integrated text-to-speech engine. To better understand the needs of the target group, an online survey has been available since June 19, 2025. It is accessible in both English and German.

Fig.: Photo safaris for blind and visually impaired people (Image: ChatGPT/4o Image)

Fotosafaris für Blinde

Am 20. März 2025 fand das Kick-off-Meeting des Projekts VISUAL statt. Initiiert wurde dieses von Prof. Dr. Oliver Bendel von der Hochschule für Wirtschaft FHNW. „VISUAL“ steht für „Virtual Inclusive Safaris for Unique Adventures and Learning“. Überall auf der Welt gibt es Webcams, die wilde Tiere zeigen. Sehende können sie nutzen, um bequem vom Sofa aus auf Foto- oder Videosafari zu gehen. Blinde und sehbehinderte Menschen sind dabei im Nachteil. Im Rahmen von Inclusive AI – eines Ansatzes und einer Bewegung, zu der auch Apps wie Be My Eyes mit der Funktion Be My AI gehören – soll eine Lösung für sie gefunden werden. Ziel des Projekts ist es, bis August 2025 einen Prototyp zu entwickeln, der es blinden und sehbehinderten Menschen ermöglicht, sich Webcam-Bilder oder -Videos von Wildtieren beschreiben zu lassen. Das System analysiert und evaluiert sie mit Hilfe eines multimodalen LLM. Es präsentiert die Ergebnisse in gesprochener Sprache über eine integrierte Text-to-Speech-Engine. Als Nebenprodukt können Wilderei, Busch- und Waldbrände und andere Ereignisse erkannt werden. Das Projekt dürfte eines der ersten sein, das Inclusive AI mit neuen Ansätzen der Animal-Computer Interaction (ACI) verbindet. Als Projektmitarbeiterin konnte Doris Jovic gewonnen werden, die ihren Bachelor in Business Information Technology (BIT) macht.

Abb.: Fotosafaris für Blinde (Bild: Ideogram)