Skip to main content Skip to main navigation

VLDB 2025 in London: DFKI-Forschung macht Datenverwaltung effizienter – und smarter

| Wissen & Business Intelligence | Data Management & Analysis | Systemische KI für Entscheidungsunterstützung | Darmstadt

Datenbanken sind die Basis für zahlreiche IT-Anwendungen und ermöglichen die Organisation großer Datenmengen. Um sie effizienter zu gestalten und neue gewinnbringende Erkenntnisse aus bestehenden Datenmengen zu generieren, haben Forschende des DFKI Darmstadts Methoden entwickelt, die sie auf der VLDB 2025 in London präsentieren. Die international renommierte Datenbank-Konferenz findet vom 1. bis zum 5. September statt.

© Pratyush Agnihotri/Matthias Urban

Datenbanken sorgen dafür, dass digitale Prozesse nachvollziehbar werden: Jeder verkaufte Artikel im Supermarkt wird in einer Datenbank erfasst. Beim Online-Banking werden Transaktionen in Datenbanken hinterlegt und können so zurückverfolgt und überprüft werden. Und eine Bestell-Historie bei Online-Händlern zeigt uns nur dank Datenbanken zuverlässig, was wir in der Vergangenheit gekauft haben. Aber die Technologie bringt auch einige Herausforderungen mit sich: Die Datenverwaltung in großen Datenbanken ist mit hohem Rechenaufwand und enormen Speicherbedarf verbunden.

Gesteigerte Effizienz durch künstliche Intelligenz

Datenbanken antworten auf Abfragen mit eindeutigen Ergebnissen. Jedoch gibt es verschiedene Möglichkeiten, wie Datenbanken diese Ergebnisse generieren. In welcher Reihenfolge werden Tabellen analysiert? Wie werden Tabellen effizient miteinander verknüpft? Hierfür gibt es spezielle Kostenmodelle, die Ausführungsstrategien zu vergleichen und dabei helfen, die schnellste auszuwählen. So kann nicht nur Rechenleistung, sondern auch Zeit gespart werden. Ein neuer Ansatz, um den besten Ausführungsplan auszuwählen, sind gelernte Kostenmodelle (LCMs).  Hierbei lernen Datenbanken mithilfe von maschinellem Lernen auf Basis von Trainingsdaten, welcher Ausführungsplan am effizientesten ist. Forschende des DFKI und der TU Darmstadt haben sich jetzt mit der Erklärbarkeit von den gelernten Kostenmodellen auseinandergesetzt, um die daraus resultierenden Entscheidungen nachvollziehbar zu machen. Auf der VLDB stellt Roman Heinrich in diesem Zuge das Paper „Opening The Black-Box: Explaining Learned Cost Models For Databases“ vor. Heinrich hat gemeinsam mit den Co-Autor*innen Oleksandr Havrylov (TU Darmstadt), Manisha Luthra Agnihotri  (DFKI, TU Darmstadt), Johannes Wehrstein (TU Darmstadt) und Carsten Binnig (DFKI, TU Darmstadt) neue Techniken entwickelt, bestehende Methoden zur allgemeinen Erklärbarkeit von KI-Modellen zu adaptieren. Dadurch ist es möglich, diese Methoden auch für LCMs zu verwenden, diese Modelle besser zu verstehen und weiter zu optimieren.

Flexible Datenbanken für bessere Datenexploration

Gängige Datenbanken für die Analyse und Exploration von Daten sind relationale Datenbanken. Diese strukturieren Daten in Tabellen, wofür sie ein zuvor umfangreich entwickeltes Schema als Blaupause benötigen. Das Design des Schemas, sowie jede nachträgliche Anpassung, sind mit hohem Aufwand verbunden. Eine flexiblere Alternative stellen schemalose Datenbanken da. Hier muss jedoch während der Datenanalyse ermittelt werden, welche Bedeutung bestimmte Daten eigentlich haben und ob alle notwendigen Informationen vorliegen. Forschende des DFKI wollen jetzt eine neue Art von Datensystem entwickeln, das die Daten autonom strukturiert, wenn die Daten ohne Schema eingegeben werden. Auf der VLDB zeigen Benjamin Hättasch, Leon Krüger (TU Darmstadt) und Prof. Carsten Binnig in einer Demonstration erste Einblicke in die Technologie „JUSTINE (JUST-INsert Engine): Demonstrating Self-organizing Data Schemas“. Wenn eine neue Eingabe von Daten in eine relationale Datenbank erfolgt, versucht JUSTINE, diese einer bestehenden Tabelle zuzuordnen. Wenn keine geeignete Tabelle existiert, erstellt JUSTINE eine neue Tabelle und fügt die Daten hinzu. Auch wenn Dateneingaben unvollständig sind und Tabellen- oder Spaltennamen fehlen, versucht die Technologie, anhand der Daten automatisch den passenden Ablageort zu finden. Darüber hinaus können Abfragen Spalten enthalten, die noch nicht im Schema vorhanden sind. Bei Bedarf fügt JUSTINE solche Spalten automatisch hinzu. Dadurch kombiniert die Technologie die Vorteile von relationalen und schemalosen Datenbanken – für flexiblere Datenanalysen.

Innovationen für Datenbanken: Workshop "Applied AI for Database Systems and Applications"

Im Workshop „Applied AI for Database Systems and Applications“, der im Rahmen der VLDB zum 6. Mal stattfand, wurde das Paper von Forschenden von TU Darmstadt und DFKI Darmstadt „JOB-Complex: A Challenging Benchmark for Traditional & Learned Query Optimization“ mit einem Best Paper Award ausgezeichnet. Beteiligt waren Johannes Wehrstein (TU Darmstadt), Timo Eckmann (TU Darmstadt), Roman Heinrich (DFKI, TU Darmstadt) und Carsten Binnig (DFKI, TU Darmstadt). Sie stellen JOB-Complex vor, einen neuen Benchmark, der traditionelle und gelernte Abfrageoptimierer herausfordert, indem er die Komplexität der realen Welt widerspiegelt. Im selben Workshop präsentieren Forschende der beiden Darmstädter Institutionen das Paper „Learning What Matters: Automated Feature Selection for Learned Performance Models in Parallel Stream Processing“. Pratyush Agnihotri (DFKI, TU Darmstadt), Carsten Binnig (DFKI, TU Darmstadt) und Manisha Luthra Agnihotri (DFKI, TU Darmstadt) stellen eine neue, automatisierte Pipeline zur Auswahl von Features für die Leistungsmodellierung in DSP-Systemen zur Optimierung der Parallelisierung vor.

Vielfalt der Datenbankforschung an einem Ort

Auf der VLDB 2025 diskutieren internationale Forschende ein breites Spektrum an Forschungsthemen, die sich auf alle Aspekte des Datenmanagements beziehen und bei denen Systemfragen eine wichtige Rolle spielen. Neben der Vorstellung von aktuellen Forschungsergebnissen gestalten Roman Heinrich und Manisha Luthra Agnihotri (DFKI & TU Darmstadt) gemeinsam mit den dänischen Forschenden Xiao Li (IT University of Copenhagen); Zoi Kaoudi (IT University of Copenhagen) auch das Tutorial „Learned Cost Models for Query Optimization: From Batch to Streaming Systems“.  Carsten Binnig nimmt außerdem bei der Panel Diskussion „Neural Relational Data: Tabular Foundation Models, LLMs… or both?“ gemeinsam mit Paolo Papotti (Eurecom), Floris Geerts (University of Antwerp), Johannes Hoffart (SAP), Madelon Hulsebos (CWI), Fatma Özcan (Google) and Gael Varoquaux (INRIA) teil. Mit ihren Beiträgen tragen die Forschenden des DFKI Darmstadts zur Zukunft des Datenmanagements bei.

Mehr Informationen:
Opening The Black-Box: Explaining Learned Cost Models For Databases
Learning What Matters: Automated Feature Selection for Learned Performance Models in Parallel Stream Processing
JOB-Complex: A Challenging Benchmark for Traditional & Learned Query Optimization
JUSTINE (JUST-INsert Engine): Demonstrating Self-organizing Data Schemas

© Benjamin Hättasch