Skip to main content Skip to main navigation

DFKI auf der CVPR 2026: Von sprachgeführten 3D-Szenen bis zur Wirbelsäulensimulation

| Data Management & Analysis | Image Recognition & Understanding | Mensch Maschine Interaktion | Virtual & Augmented Reality | Agenten und Simulierte Realität | Eingebettete Intelligenz | Erweiterte Realität | Grundlagen der Systemischen KI | Smarte Daten & Wissensdienste | Pressemitteilung

Mit mehreren Beiträgen auf der CVPR 2026 zeigte das DFKI die Breite seiner Forschung in der visuellen KI. Das Spektrum reichte von 3D-Szenenverstehen und relationalem Denken über multimodale Wahrnehmung bis hin zu Simulation, Generierung und Workshop-Beiträgen.

Das DFKI ist nicht nur mit zahlreichen Beiträgen auf der CVPR 2026 vertreten gewesen - sondern auch mit den WissenschaftlerInnen dahinter. Knapp eine Woche lang konnten sie Ihre Themen in Workshops diskutieren und auf der Mainstage vorstellen.

Die IEEE/CVF Conference on Computer Vision and Pattern Recognition, kurz CVPR, zählt zu den wichtigsten Konferenzen der Computer-Vision-Forschung und fand in diesem Jahr vom 3. bis 7. Juni in Denver statt. Das DFKI war dort mit mehreren angenommenen Beiträgen aus unterschiedlichen Forschungsbereichen vertreten. Im Fokus stand dabei ein Paper aus dem Forschungsbereich Augmented Vision, das eine zentrale Schwäche heutiger 3D-Szenenanalyse adressiert: Systeme erkennen Objekte, verstehen aber oft nicht, wie sie zueinander in Beziehung stehen.

Main-Conference-Papers aus dem DFKI

Die DFKI-Beiträge zur Hauptkonferenz decken ein breites Spektrum der visuellen KI ab. Aus dem Forschungsbereich Augmented Vision stammen ReLaGS: Relational Language Gaussian Splatting, DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance, LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration sowie SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking. 

Hinzu kommen OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments und When Pretty Isn’t Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators und YieldSAT: A Multimodal Benchmark Dataset for HighResolution Crop Yield Prediction aus Kaiserslautern, Synthesizing Visual Concepts as Vision-Language Programs aus Darmstadt sowie SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens aus Saarbrücken. Zusammen reichen die Themen von offenem 3D-Szenenverstehen über multimodale Wahrnehmung und Sensorenkalibrierung bis hin zu medizinischer Simulation, synthetischen Trainingsdaten und generativer Bewegungsmodellierung.

ReLaGS

Innerhalb dieses Spektrums setzt ReLaGS einen markanten Akzent. Das Paper von Yaxu Xie, Abdalla Arafa, Alireza Javanmardi, Christen Millerdurai, Jia Cheng Hu, Shaoxiang Wang, Alain Pagani und Didier Stricker verbindet eine hierarchische 3D-Szenenrepräsentation mit einem expliziten Szenegraphen, der Beziehungen zwischen Objekten modelliert. So lassen sich nicht nur Objekte in einer Szene identifizieren, sondern auch relationale Anfragen wie „die Tasse neben dem Laptop“ oder feinere Teil-Ganzes-Bezüge innerhalb komplexer 3D-Umgebungen verarbeiten.

Grundlage ist Gaussian Splatting, eine aktuelle Methode zur hochauflösenden 3D-Rekonstruktion. ReLaGS ergänzt sie um sprachliche Semantik und relationales Denken, organisiert Szenen hierarchisch – von Teilen über Objekte bis zum Gesamtraum – und kommt ohne szenenspezifisches Training aus.

Alain Pagani, stellvertretender Forschungsbereichsleiter Augmented Vision am DFKI

„Mit ReLaGS zeigten wir, dass 3D-Szenenverständnis nicht bei der Erkennung einzelner Objekte enden muss. Entscheidend ist, Beziehungen, Hierarchien und semantische Kontexte gemeinsam zu modellieren – nur so wird aus Rekonstruktion tatsächlich maschinelles Verstehen.“

Alain Pagani, stellvertretender Forschungsbereichsleiter Augmented Vision am DFKI

Ergebnisse und Relevanz

Im Paper berichten die Forschenden, dass ReLaGS einen vollständigen Szenegraphen in unter 15 Minuten erzeugt und mit mehr als 200 Bildern pro Sekunde rendert. Im Vergleich zu RelationField arbeitet der Ansatz damit 4,7-mal schneller und ist 7,6-mal speichereffizienter. Auf Benchmarks zur offenen 3D-Segmentierung, Szenegraphvorhersage und relationsgeleiteten Instanzsegmentierung erreicht ReLaGS zudem Ergebnisse auf State-of-the-Art-Niveau. 

Für die Forschung ist das relevant, weil 3D-Szenenverstehen zunehmend dort gebraucht wird, wo Maschinen in komplexen Umgebungen sicher und kontextsensitiv agieren sollen: in Robotik, XR, industriellen digitalen Zwillingen oder semantisch reichhaltigen Mensch-Maschine-Schnittstellen. ReLaGS zeigt, wie sich geometrische Rekonstruktion, Sprachsemantik und relationale Struktur in einem gemeinsamen Framework zusammenführen lassen.

Weitere Konferenzbeiträge

Über die Main Conference hinaus war das DFKI auch in weiteren Formaten der CVPR 2026 vertreten. Aus dem Forschungsbereich Augmented Vision wurden GHOST: Fast Category-Agnostic Hand-Object Interaction Reconstruction from RGB Videos Using Gaussian Splatting und ReConText3D: Replay-based Continual Text-to-3D Generation als Findings-Poster angenommen. TAUE: Training-free Noise Transplant and Cultivation Diffusion Model war ebenfalls unter den Findings-Postern zu finden. 

Hinzu kamen die Workshop-Beiträge Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning im AUTOPILOT-Workshop sowie Inpaint360GS: Efficient Object-Aware 3D Inpainting via Gaussian Splatting for 360° Scenes im SPAR-3D-Workshop. Damit zeigte sich die DFKI-Präsenz auf der CVPR 2026 nicht nur in der Hauptkonferenz, sondern auch in Formaten, in denen aktuelle methodische Fragen und neue Anwendungsfelder verhandelt werden.

Alle Paper in der Übersicht

  • ReLaGS: Relational Language Gaussian Splatting - Yaxu Xie, Abdalla Arafa, Alireza Javanmardi, Christen Millerdurai, Jia Cheng Hu, Shaoxiang Wang, Alain Pagani, Didier Stricker 
  • DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance - Shreedhar Govil, Didier Stricker, Jason Rambach 
  • LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration - Aditya Ranjan Dash, Ramy Battrawy, René Schuster, Didier Stricker 
  • SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking - Muhammad Saif Ullah Khan, Didier Stricker 
  • OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments - Hymalai Bello, Lala Ray, Joanna Sorysz, Sungho Suh, Paul Lukowicz 
  • When Pretty Isn’t Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators - Krzysztof Adamkiewicz, Brian Moser, Stanislav Frolov, Tobias Christian Nauen, Federico Raue, Andreas Dengel 
  • SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens - Anindita Ghosh, Vladislav Golyanik, Taku Komura, Philipp Slusallek, Christian Theobalt, Rishabh Dabral 
  • GHOST: Fast Category-Agnostic Hand-Object Interaction Reconstruction from RGB Videos Using Gaussian Splatting - Ahmed Tawfik Aboukhadra, Marcel Rogge, Nadia Robertini, Abdalla Arafa, Jameel Malik, Ahmed Elhayek, Didier Stricker 
  • Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning - Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani 
  • Inpaint360GS: Efficient Object-Aware 3D Inpainting via Gaussian Splatting for 360° Scenes - Shaoxiang Wang, Shihong Zhang, Christen Millerdurai, Rüdiger Westermann, Didier Stricker, Alain Pagani 
  • ReConText3D: Replay-based Continual Text-to-3D Generation - Muhammad Ahmed Ullah Khan, Muhammad Haris Bin Amir, Didier Stricker, Muhammad Zeshan Afzal
  • TAUE: Training-free Noise Transplant and Cultivation Diffusion Model - Daichi Nagai, Ryugo Morita, Shunsuke Kitada, Hitoshi Iyatomi
  • YieldSAT: A Multimodal Benchmark Dataset for HighResolution Crop Yield Prediction - Miro Miranda, Deepak Pathak, Patrick Helber, Benjamin Bischke, Hiba Najjar, Francisco Mena, Cristhian Sanchez, Akshay Pai, Diego Arenas, Matias Valdenegro-Toro, Marcela Charfuelan, Marlon Nuske, Andreas Dengel
  • Synthesizing Visual Concepts as Vision-Language Programs - Antonia Wüst, Wolfgang Stammer, Hikaru Shindo, Lukas Helff, Devendra Singh Dhami, Kristian Kersting

Pressekontakt:

Jeremy Gob

Redakteur & Referent für Öffentlichkeitsarbeit, DFKI