Die visuelle 3D-Erfassung einer Szene in Echtzeit und die gleichzeitige Bestimmung der Position und Orientierung der Kamera (6DoF, Freiheitsgrad) im Raum ist eine Kerntechnologie, die in zahlreichen Bereichen wie dem autonomen Fahren, der Robotik oder der Medizintechnik Anwendung findet. Das Ziel des MOVEON-Projekts ist die Entwicklung einer neuartigen Generation von visuellen Positionierungssystemen, die über die klassische Lokalisierung und Kartierung hinausgeht, die sich derzeit nur auf die Rekonstruktion von Punktwolken konzentriert. Im Gegensatz dazu ist es unser Ziel, eine 6DoF-Positionierung und ein globales Szenenverständnis in unkontrollierten und dynamischen Umgebungen (z.B. überfüllten Straßen) zu ermöglichen, die sich mit der Größe der Umgebung gut skalieren lässt und die durch die Wiederverwendung konsistenter Karten über einen längeren Zeitraum hinweg dauerhaft eingesetzt werden kann. MOVEON wird den Stand der Technik im visionsbasierten, räumlich-zeitlichen Szenenverständnis vorantreiben, indem es neuartige maschinelle Lernansätze mit geometrischem Schließen (geometric-reasoning) verbindet. Die auf Deep-Learning basierende Erkennung und das Verständnis von High-Level-Konzepten wie Fluchtpunkten oder großen Objektklassen werden als einheitliche Bausteine für eine räumlich-zeitliche Lokalisierung und die Rekonstruktion der Umgebung dienen, die geometrisches Schließen als zugrundeliegende Unterstützung verwenden wird. Dadurch entstehen „hybride Systeme“, die die Stärke beider Technologien, tiefes Lernen und geometrisches Schließen, vereinen und eine hohe Robustheit sowie hohes Erklärbarkeitspotential (im Gegensatz zu „End-to-End Learning“) besitzen.
The aim of the MOVEON project is to develop a novel generation of visual positioning systems that goes beyond classical localization and mapping, which focuses currently only on point cloud reconstruction. In contrast, our aim is to allow for 6DoF positioning and global scene understanding in wild and dynamic environments (e.g. crowded streets) that scales up nicely with the size of the environment, and that can be used persistently over time by reusing consistent maps. MOVEON will push forward the state of the art in vision-based, spatio-temporal scene understanding by merging novel machine-learning approaches with geometrical reasoning. Deep-learning-based recognition and understanding of high-level concepts such as vanishing points or large object classes will serve as unitary building blocks for a spatio-temporal localization and environment reconstruction that will use geometric reasoning as underlying support.
Partner
Gilles Simon, INRIA Nancy, Team MAGRIT