

Die IEEE/CVF Conference on Computer Vision and Pattern Recognition, kurz CVPR, zählt zu den wichtigsten Konferenzen der Computer-Vision-Forschung und fand in diesem Jahr vom 3. bis 7. Juni in Denver statt. Das DFKI war dort mit mehreren angenommenen Beiträgen aus unterschiedlichen Forschungsbereichen vertreten. Im Fokus stand dabei ein Paper aus dem Forschungsbereich Augmented Vision, das eine zentrale Schwäche heutiger 3D-Szenenanalyse adressiert: Systeme erkennen Objekte, verstehen aber oft nicht, wie sie zueinander in Beziehung stehen.
Die DFKI-Beiträge zur Hauptkonferenz decken ein breites Spektrum der visuellen KI ab. Aus dem Forschungsbereich Augmented Vision stammen ReLaGS: Relational Language Gaussian Splatting, DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance, LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration sowie SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking.
Hinzu kommen OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments und When Pretty Isn’t Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators und YieldSAT: A Multimodal Benchmark Dataset for HighResolution Crop Yield Prediction aus Kaiserslautern, Synthesizing Visual Concepts as Vision-Language Programs aus Darmstadt sowie SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens aus Saarbrücken. Zusammen reichen die Themen von offenem 3D-Szenenverstehen über multimodale Wahrnehmung und Sensorenkalibrierung bis hin zu medizinischer Simulation, synthetischen Trainingsdaten und generativer Bewegungsmodellierung.
Innerhalb dieses Spektrums setzt ReLaGS einen markanten Akzent. Das Paper von Yaxu Xie, Abdalla Arafa, Alireza Javanmardi, Christen Millerdurai, Jia Cheng Hu, Shaoxiang Wang, Alain Pagani und Didier Stricker verbindet eine hierarchische 3D-Szenenrepräsentation mit einem expliziten Szenegraphen, der Beziehungen zwischen Objekten modelliert. So lassen sich nicht nur Objekte in einer Szene identifizieren, sondern auch relationale Anfragen wie „die Tasse neben dem Laptop“ oder feinere Teil-Ganzes-Bezüge innerhalb komplexer 3D-Umgebungen verarbeiten.
Grundlage ist Gaussian Splatting, eine aktuelle Methode zur hochauflösenden 3D-Rekonstruktion. ReLaGS ergänzt sie um sprachliche Semantik und relationales Denken, organisiert Szenen hierarchisch – von Teilen über Objekte bis zum Gesamtraum – und kommt ohne szenenspezifisches Training aus.

„Mit ReLaGS zeigten wir, dass 3D-Szenenverständnis nicht bei der Erkennung einzelner Objekte enden muss. Entscheidend ist, Beziehungen, Hierarchien und semantische Kontexte gemeinsam zu modellieren – nur so wird aus Rekonstruktion tatsächlich maschinelles Verstehen.“
Im Paper berichten die Forschenden, dass ReLaGS einen vollständigen Szenegraphen in unter 15 Minuten erzeugt und mit mehr als 200 Bildern pro Sekunde rendert. Im Vergleich zu RelationField arbeitet der Ansatz damit 4,7-mal schneller und ist 7,6-mal speichereffizienter. Auf Benchmarks zur offenen 3D-Segmentierung, Szenegraphvorhersage und relationsgeleiteten Instanzsegmentierung erreicht ReLaGS zudem Ergebnisse auf State-of-the-Art-Niveau.
Für die Forschung ist das relevant, weil 3D-Szenenverstehen zunehmend dort gebraucht wird, wo Maschinen in komplexen Umgebungen sicher und kontextsensitiv agieren sollen: in Robotik, XR, industriellen digitalen Zwillingen oder semantisch reichhaltigen Mensch-Maschine-Schnittstellen. ReLaGS zeigt, wie sich geometrische Rekonstruktion, Sprachsemantik und relationale Struktur in einem gemeinsamen Framework zusammenführen lassen.
Über die Main Conference hinaus war das DFKI auch in weiteren Formaten der CVPR 2026 vertreten. Aus dem Forschungsbereich Augmented Vision wurden GHOST: Fast Category-Agnostic Hand-Object Interaction Reconstruction from RGB Videos Using Gaussian Splatting und ReConText3D: Replay-based Continual Text-to-3D Generation als Findings-Poster angenommen. TAUE: Training-free Noise Transplant and Cultivation Diffusion Model war ebenfalls unter den Findings-Postern zu finden.
Hinzu kamen die Workshop-Beiträge Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning im AUTOPILOT-Workshop sowie Inpaint360GS: Efficient Object-Aware 3D Inpainting via Gaussian Splatting for 360° Scenes im SPAR-3D-Workshop. Damit zeigte sich die DFKI-Präsenz auf der CVPR 2026 nicht nur in der Hauptkonferenz, sondern auch in Formaten, in denen aktuelle methodische Fragen und neue Anwendungsfelder verhandelt werden.
Redakteur & Referent für Öffentlichkeitsarbeit, DFKI