Trotz erstaunlicher Fortschritte auf dem Gebiet des maschinellen Lernens (ML) ist die Robustheit von Hochleistungsmodellen, insbesondere der auf Deep Learning-Technologien basierenden, geringer als ursprünglich prognostiziert. Diese Netzwerke verallgemeinern nicht wie erwartet und bleiben anfällig für kleine bösartige Störungen (die sogenante "Adversarial Attacks"). Solche Unzulänglichkeiten stellen ein kritisches Hindernis für die Implementierung von Deep Learning Modellen für sicherheitskritische Bereiche wie z.B. autonomes Fahren, medizinische Bildverarbeitung und Bonitätsprüfung dar.
Darüber hinaus zeigt die Lücke zwischen guter Performance und Robustheit auch den mangelnden Erklärbarkeit moderner KI-Ansätze: Trotz guter Performance können selbst Experten die Modellvorhersagen nicht zuverlässig interpretieren.
Die Ziele dieses Projekts sind daher dreifach:
- Untersuchung der Erklärungs- und Interpretierbarkeit bestehender KI-Ansätze (Schwerpunkt: Deep Neural Networks).
- Entwicklung neuartiger Architekturen und Trainingsverfahren, die vom Design her besser interpretierbar sind.
- Analyse der Trade-offs zwischen Erklärbarkeit, Robustheit und Performance.