Skip to main content Skip to main navigation

Projekt | LIEREx

Laufzeit:
Sprach-Bild Embeddings für Robotische Erkundung

Sprach-Bild Embeddings für Robotische Erkundung

"Roboter, bring mir eine Tasse!"

Diese augenscheinlich einfache Anweisung stellt Roboter oft vor signifikante Probleme.

Durch Nutzung semantischer Karten kann der Roboter zwar die Positionen der Objekte abfragen, diese wurden jedoch möglicherweise gar nicht in der Umgebung beobachtet.

Als Menschen ist uns die Lösung dieses Problems meist intuitiv klar: Wir müssen das gewünschte Objekt suchen, in diesem Fall etwa im Küchenschrank. Schlussfolgerungen dieser Art durch einen Roboter erfordern die Modellierung einer semantischen Domäne, z. B. durch die explizite Erstellung einer Regel, dass Tassen in Küchenschränken zu finden sind oder die Bereitstellung geeigneter Trainingsdaten, sodass die implizite Beziehung zwischen Tassen und Küchenschränken durch ein neuronales Netz gelernt werden kann. Beide Varianten erfordern einen großen Aufwand und decken in der Regel nur wenige mögliche Fälle ab.

Ebenso problematisch ist es, wenn ein Objekt gar nicht im Vokabular der semantischen Karte, z. B. in den möglichen Objektklassen, berücksichtigt ist. Solche Objekte können durch einen Roboter gar nicht erkannt und daher auch nicht aufgefunden werden.

In den letzten Jahren wurden durch die Entwicklung von Large-Language-Modellen (LLM) und Vision-Transformern große Fortschritte in der Kombination der visuellen und sprachlichen Domänen erzielt. Durch Nutzung von Vision-Language (VL) Modellen wie CLIP (Radford et al., 2021) können gemeinsame Einbettungen von Text- und Bilddaten erzeugt werden. Diese ermöglichen die Erkennung von Objekten über ein zuvor festgelegtes Vokabular hinaus und können über ihren Einbettungsraum zudem auch Beziehungen zwischen Objektklassen modellieren.

Im Projekt LIEREx entwickeln wir, aufbauend auf diesen VL-Modellen, eine neuartige semantische Karte, welche Abfragen beliebiger Objekte erlaubt. Durch Ausnutzung der impliziten Beziehungen zwischen verwandten Objektklassen sowie vorhandenem explizitem Vorwissen erlaubt diese Karte zusätzlich auch die Ableitung einer geeigneten Suchstrategie für unbekannte Objekte. Das Gesamtsystem wird auf einem mobilen Roboter implementiert und anhand der "zielgerichteten Exploration" einer Indoor-Umgebung evaluiert.

LIEREx steht dabei im direkten inhaltlichen Bezug zu den Zielen im Projekt ExPrIS. In ExPrIS werden Erwartungen aus Vorwissen erzeugt, um das Ergebnis von Deep-Learning-Modellen für Computer-Vision-Probleme zu beeinflussen. Die hierbei untersuchten Ansätze zur Einbettung von Wissen und Repräsentation des Szenenkontextes können in LIEREx ebenfalls eingesetzt und zusätzlich um die Verwendung von Spracheinbettungen ergänzt werden.

Fördergeber

BMBF - Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie

01IW24004

BMBF - Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie