Was der Computer sieht, aber nicht versteht – Forschungsprojekt VIDETE entwickelt neue KI-Methoden für Maschinelles Sehen

Im Forschungsprojekt VIDETE werden neue Verfahren der Künstlichen Intelligenz auf Basis neuronaler Netze entwickelt, damit Computer besser verstehen, was sie sehen. Die Herausforderungen, die sich für die neuen Anwendungen in den Bereichen Autonome Systeme, Industrie und Medizin stellen, sind vielfältig.

Sehen – Eine Glanzleistung des Gehirns

Das Sehen ist eine der wichtigsten Sinnesfähigkeiten des Menschen. Gerade das Bewegungssehen ist eine Glanzleistung des Gehirns. In Sekundenbruchteilen werden Wahrnehmungen verarbeitet und interpretiert. Dabei spielt ein Mix aus Eindrücken anderer sensorischer Systeme, beispielsweise vom Gleichgewichtsorgan oder dem Tastsinn, ebenso eine wichtige Rolle wie Erfahrung. Denn das Gehirn hat gelernt, dass etwa ein Fahrzeug nur größer oder kleiner erscheint, wenn es sich entfernt oder annähert, obwohl sich seine tatsächliche Größe nicht verändert. Als Mensch können wir komplexe Szenarien, wie Verkehrssituationen, erfassen und auch relativ sicher einschätzen – auch wenn Geschwindigkeit und Abstand von Fahrzeugen variieren, Objekte sich überlagern, nur teilweise erkannt werden können oder die Lichtverhältnisse sich ändern. Dabei kommt uns unser Wissen zugute. Denn wir haben erlernt, die Dynamik einzelner Objekte und damit solche Situationen intuitiv zu verstehen.

Computern hingegen fehlt dieses Wissen zunächst. Im Grunde genommen klassifizieren sie, was ihre optischen Sensoren erfassen, anhand einer programmierten Methode in schnellen Abfolgen. Sie wissen aber nicht, wie es sich wirklich verhält. Sie können Objekte zwar erkennen, einigermaßen einordnen und gewisse Umweltbedingungen in ihre Berechnungen einbeziehen, aber die Gesamtheit einer Situation mit zahlreichen Akteuren in all ihren Abhängigkeiten und Unwägbarkeiten nicht tatsächlich verstehen. Klassische Methoden des Maschinellen Sehens (Computer Vision) reichen hierfür kaum aus. Schon um einen Gegenstand und dessen Bewegung stabil dreidimensional zu erfassen, sind gegenwärtige Systeme zumeist auf mindestens drei Kameras angewiesen. Zudem sind schwierige Umgebungsbedingungen, wie Nebel, Dunkelheit oder Reflexionen, nach wie vor eine große Herausforderung.

Stabile Erkennung dank Vorwissen

Prof. Dr. Didier Stricker, Leiter des Forschungsbereichs Erweiterte Realität (Augmented Vision) am DFKI: „Mit VIDETE verfolgen wir das ambitionierte Ziel, eine robuste Erkennung dynamischer Objekte mit wenigen oder gar nur einer Kamera zu bewerkstelligen, bei möglichst niedrigem Energieverbrauch. Kleinste Sensoren mit geringer Rechenkapazität sollen verlässliche Ergebnisse liefern.“
Um die erforderlichen Berechnungen in Echtzeit bewerkstelligen zu können, ist Vorwissen nötig. „Die Maschine benötigt Erfahrung, um Bewegungen und Situationen besser antizipieren zu können“, so Prof. Stricker weiter. Um dieses Vorwissen zu implementieren, setzen die DFKI-Wissenschaftler auf Verfahren des Maschinellen Lernens. Das System wird verschiedene Erkennungsmethoden bereithalten und auf Basis neuronaler Netze lernen, welche davon in einer Situation die besten Ergebnisse liefert. Damit diese schnell verfügbar sind, ist eine modulare Ordnung der Algorithmen vorgesehen. So lassen sie sich effizient direkt in der Hardware realisieren, also auch auf Geräten, die nur über kleine Prozessoren verfügen und mit wenig Energie auskommen, wie beispielsweise einer Endoskopie-Kamera. Damit sind die Rechenvorgänge, etwa zum Erkennen einer Handgeste, ohne weitere Hardware und nahe am erzeugenden Sensor durchführbar. Die Technologie wird dadurch auf mobilen Geräten mit geringer Rechenleistung möglich.

Um eine robuste Erkennung zu erreichen, müssen die neuen Verfahren neben der Erfassung der einzelnen dreidimensionalen Objekte auch die zeitliche Komponente als vierte Dimension einbeziehen (4D-Rekonstruktion). Gerade bei beweglichen Objekten sind Elemente und Details manchmal verdeckt oder schlecht zu erkennen. Hier hilft die zeitliche Dimension, indem die Erfassung des verdeckten Teils aus einer Szene zuvor als Ansatz für die Rekonstruktion verwendet wird.

Nachvollziehbare Algorithmen für sichere Anwendungen

Außerdem wird in VIDETE erforscht, wie sich die berechneten Ergebnisse begründen lassen. Bevor diese zur weiteren Berechnung genutzt werden, wird sozusagen eine Zweitmeinung eingeholt, indem ein anderer Algorithmus die Eignung der Resultate überprüft. „Dadurch sollen die Entscheidungswege der Maschine nachvollziehbar werden, da wir uns in der Anwendung schließlich auf deren Korrektheit verlassen wollen. Im Bereich der Medizin wäre dies vergleichbar mit der Meinung eines Kollegen im Gegensatz zur pauschalen Antwort aktueller KI-Methoden“, erläutert DFKI-Projektleiter Dr. Gerd Reis.

Durch diese neuartigen Technologien soll es zum Beispiel autonomen Systemen leichter fallen, allgemeine Szenen in ihrer Umgebung zu analysieren und zu interpretieren. Selbstfahrende Fahrzeuge oder Industrieroboter, die uns sicher von einem Ort zum anderen bringen oder mit uns zusammen im Team arbeiten, sollen so komplexe Situationen richtig einordnen und verstehen können.

Das Konzept von VIDETE sieht vor, die Verfahren zunächst für starre Objekte und eine feste Kameraposition zu entwerfen und dann bis hin zu dynamischen Objekten und beweglichen Kameras zu skalieren. Die Ergebnisse werden unabhängig von den definierten Forschungsszenarien und können zum Fortschritt in vielen Anwendungsbereichen beitragen, neben Industrie und Autonome Systeme beispielsweise beim Szenenverständnis von Smart Home-Technologien oder zur Rekonstruktion endoskopischer Szenen in der Medizin.

VIDETE wird vom Bundesministerium für Bildung und Forschung (BMBF) über drei Jahre bis zum 31. Juli 2021 gefördert.

Kontakt:
Dr. Gerd Reis
Forschungsbereich Erweiterte Realität
DFKI GmbH
Tel.: +49 631 20575 2090
Gerd.Reis@dfki.de

Pressekontakt:
Team Unternehmenskommunikation Kaiserslautern
DFKI GmbH
Tel.: +49 631 20575 1700/1710
communications-kl@dfki.de

Contact:

Christian Heyer

Christian.Heyer@dfki.de

Further information: