Damit tiefe neuronale Netze künftig schneller angepasst und für neue Aufgaben trainiert und eingesetzt werden können, arbeiten das DFKI in Saarbrücken und Inria in Nancy mit hochleistungsfähigen High Performance Computing-Umgebungen (HPC). ENGAGE untersucht schwerpunktmäßig, wie HPC-Umgebungen optimiert, effizient und im Verbund mit anderen Hardware-Umgebungen für KI eingesetzt werden können.
„Unser Projekt wird eine Blaupause für den optimierten und flexiblen HPC-Einsatz für maschinelles Lernen sowie für die extrem schnelle Anpassung und Berechnung tiefer neuronaler Netze. Eine wichtige Anwendung ist die Validierung und Zertifizierung von KI-Systemen durch gezieltes Testen mit synthetisch generierten Daten aus Simulationen. Dies wird dazu beitragen, die Vertrauenswürdigkeit von KI zu erhöhen und damit die Akzeptanz von KI in Bereichen wie autonomes Fahren, großskaligen Smart Living-Anwendungen, oder in der industriellen Produktion steigern“, sagt Prof. Dr. Philipp Slusallek Projektleiter ENGAGE und Wissenschaftlicher Direktor am DFKI Saarbrücken.
ENGAGE ist ein Projekt im Rahmen der strategischen Forschungs- und Innovationsagenda von DFKI und Inria im Bereich Künstliche Intelligenz. Die wissenschaftlichen Einrichtungen haben am 22. Januar 2020, dem ersten Jahrestag des Aachener Vertrags, ein Memorandum of Understanding unterzeichnet. Darin verabreden sie, ihre Zusammenarbeit im Bereich der KI deutlich zu verstärken und ihre langjährige wissenschaftliche Kooperation zu strukturieren und zu formalisieren. Beide sind fest in der europäischen Forschungslandschaft verankert, bringen komplementäres Fachwissen und Erfahrungen im Bereich Hochleistungsrechnen (High Performance Computing), Big Data und KI ein und können so unmittelbar auf die Projektziele fokussieren. Die Ergebnisse von ENGAGE wiederum fließen in andere gemeinsame Vorhaben ein. Ein Vorschlag des DFKI zum inhaltlich verwandten Thema Large-Scale AI wird derzeit von deutschen Fördermittelgebern geprüft. Inria verfügt mit dem Großrechner Grid’5000 über eine groß angelegte und flexible Testumgebung für experimentelle Forschung in allen Bereichen der Informatik, mit Schwerpunkt auf parallelem und verteiltem Rechnen, einschließlich Cloud, HPC, Big Data und KI.
Der Zuschnitt des Projekts als deutsch-französische Zusammenarbeit ermöglicht es außerdem, Rechenzeit auf europäischen Ressourcen wie dem Jean-Zay Supercomputer in Frankreich oder der Supercomputing-Infrastruktur PRACE (Partnership for Advanced Computing in Europe) nutzen zu können. Darüber hinaus sind Synergien mit der deutsch-französischen Initiative GAIA-X zur Festlegung gemeinsamer Anforderungen an die europäische Dateninfrastruktur geplant.
Damit tiefe neuronale Netze künftig schneller für neue Aufgaben trainiert und eingesetzt werden können, setzt das ENGAGE-Projektteam auf drei Ebenen an:
Neuronale Netze brauchen sehr viele Daten als Trainingsmaterial, um ihre Aufgabe erledigen können. In vielen Fällen liegen diese nicht oder nicht in ausreichender Menge vor. Besonders gefährliche Situationen im Straßenverkehr beispielsweise, die das autonome Fahrzeug erkennen soll, kommen nicht häufig genug vor. Für neuartige Maschinenteile in der industriellen Fertigung z.B., deren Lebensdauer mit Modellen prognostiziert werden soll, können Daten zum Zeitpunkt der Markteinführung noch gar nicht als Realdaten vorliegen. Um solche Aufgaben dennoch bewältigen zu können, greift die Informatik auf synthetische Daten zurück. Die künstlichen Daten werden vorher erzeugt, dann erst wird das Neuronale Netz damit trainiert. Dieses zweiphasige Vorgehen kostet Rechenressourcen und Zeit. In ENGAGE wollen die Forschenden Neuronale Netze mit einem kontinuierlichen und parallel erzeugen Datenstrom trainieren. Die Möglichkeit, Trainingsdaten bei Bedarf zu generieren, ermöglicht spontane Trainings neuronaler Netze für unvorhergesehene Aufgaben.
Mit speziell und automatisiert an die jeweiligen HPC-Umgebungen adaptierten und auf Hardware-Ebene optimierten KI- Algorithmen sollen neuronale Netze sehr viel schneller angepasst oder neu berechnet werden. Neben der grundlegenden, rascheren Erstellung komplexer neuronaler Netze ermöglicht die HPC-Infrastruktur die parallele und somit sehr schnelle Generierung großer Mengen an synthetischen Daten für das Training und das Testen neuronaler Netze. Synthetisch erzeugte und somit frei variierbare Trainingsdaten machen neuronale Netze und darauf basierende Entscheidungen in ihren jeweiligen Anwendungsfeldern robuster und nachvollziehbarer.
Zweites Ziel in ENGAGE ist die Erforschung verschiedener Einsatzstrategien für komplexe KI Workflows auf hybriden Ausführungsinfrastrukturen, z. B. einer Kombination von Supercomputern, Cloud-, und Edge-Systemen. Die wichtigsten erwarteten Ergebnisse sind ein zugehöriges Software-Framework für die Bereitstellung, Überwachung und Ausführung von Experimenten in großem Maßstab auf verschiedenen relevanten skalierbaren Infrastrukturen.
Im Fokus des dritten Arbeitspakets steht die Optimierung der Ressourcennutzung für KI-Workflows, durch eine verbesserte Ausnutzung paralleler Rechenoperationen sowie eine gezielte Daten- und Modellverwaltung über Hardware-Grenzen hinweg. Dazu entwickelt das Team eine Reihe von methodischen und algorithmischen Werkzeugen für die Speicherverwaltung, für die effiziente Nutzung heterogener Rechenressourcen sowie eine automatisierte, an HPC-Umgebungen angepasste Entwicklungspipeline für neuronale Netze.
Damit eine HPC-Infrastruktur effizient und auch im Verbund mit anderer Hardware genutzt werden kann, sind spezialisierte Werkzeuge zur Daten- und Modellerstellung, zum Management der erstellten Modellversionen und der dafür verwendeten Datensätze sowie zur Virtualisierung der konkreten Hardware-Infrastruktur zentrale Aufgabenstellungen des deutsch-französischen Projektes.
ENGAGE ist ein Projekt an der Schnittstelle von Big Data, HPC und KI. Ziel ist es, eine hybride Computing-Infrastruktur aus High Performance-, Cloud- und Edge-Computing flexibel, intelligent und automatisiert adressieren zu können. Indem es relevante Einsatz- und Planungslösungen vorschlägt, wird dieses Projekt eines der ersten sein, das das Verständnis dafür fördert, wie dieses Computerkontinuum am besten genutzt werden kann.