Erst vor gut einem Jahr hatte das DFKI den ersten Hochleistungsrechner dieser Art in seinem Rechenzentrum, das in Kaiserslautern gehostet wird, installiert und damit als einer der weltweit ersten Anwender die neuen Systeme eingesetzt. Die Rechenleistung des auf rechenintensive lernende Algorithmen spezialisierten Clusters wurde so von anfänglich rund 20 PetaFLOPS auf mittlerweile über 60 PetaFLOPS erweitert.
Die dritte Generation des NVIDIA DGX-Systems bietet mit jeweils acht der weltweit fortschrittlichsten NVIDIA A100 Tensor Core Rechenbeschleunigern 5 PetaFLOPS an Leistung. Ein PetaFLOP entspricht 1 Billiarde Rechenoperationen pro Sekunde. Zum Vergleich: Würde man jedem Menschen auf der Welt einen Taschenrechner geben und jeder würde damit innerhalb einer Sekunde 125.000 Berechnungen durchführen, entspräche die Rechenleistung etwa einem PetaFLOP. Trotz dieser enormen Rechenleistungen arbeitet das Rechenzentrum hocheffizient: Die aktuellen NVIDIA DGX-Systeme benötigen rund 1,2 Kilowatt pro PetaFLOP, während Vorgängersysteme hierfür noch 3 bis 5 Kilowatt benötigten.
„Ein Ziel ist es, auf interaktives Deep Learning hinzuarbeiten“, sagt Professor Dr.-Ing. Daniel Sonntag, Leiter des Forschungsbereichs IML, DFKI-Labor Niedersachsen in Oldenburg: „Das zweite Ziel betrifft große vortrainierte Modelle oder Basismodelle, die nun für verschiedene Anwendungsbereiche berechnet werden können.“ Um die Funktionsweise von Basismodellen besser zu verstehen und eine technische Anleitung für die Entwicklung von Algorithmen zu geben, werden außerdem theoretische Aspekte des Transfer-Lernens und des multimodalen Lernens untersucht und insbesondere die Robustheit und Interpretierbarkeit der trainierten Basismodelle verbessert.
Das neue NVIDIA DGX-A100-System (640 GB) soll die KI-Forschung im Bereich interaktiver maschineller Lernsysteme deutlich beschleunigen und zusätzliche Forschung im Bereich der Erklärbarkeit (XAI) für den praktischen Einsatz in industriellen wie medizinischen Anwendungen fördern, die in Projekten wie pAItient, XAINES und Ophthalmo-AI vorangetrieben wird. Ein neues Forschungsfeld für den DFKI-Forschungsbereich IML entsteht rund um das Thema nachhaltiger Einsatz von KI. Die kürzeren Modellaktualisierungszeiten sollen die Forschenden künftig in die Lage versetzen, die in der internationalen Forschungsgemeinschaft anerkannten Regeln der Benutzerfreundlichkeit bei interaktiven Systemen einzuhalten: 1,0 Sekunde ist etwa die Grenze dafür, dass der Gedankenfluss des Benutzers nicht unterbrochen wird, auch wenn der Benutzer die Verzögerung bemerkt. 10 Sekunden sind ungefähr die Grenze, bis zu der die Aufmerksamkeit des Benutzers auf den Dialog gerichtet bleibt. Ein Beispiel ist die interaktive Bildbeschriftung.
Zum Hintergrund:
In der KI gibt es eine neue Welle an Entwicklungen, ausgelöst durch das Aufkommen großer vortrainierter oder grundlegender Modelle wie BERT [1], GPT-3 [2] oder DALL-E [3], die mit umfangreichen Datenmengen trainiert werden und an eine breite Palette verschiedener nachgelagerter Aufgaben angepasst werden können. Diese Basismodelle haben zu einem hohen Grad an Homogenisierung geführt. So werden beispielsweise seit 2019 fast alle modernen Modelle für die natürliche Sprachverarbeitung an eines der wenigen Basismodelle wie BERT [1], BART [4], T5 [5] usw. angepasst, und diese Praxis wurde schließlich zur Norm. Ein ähnlicher Trend ist auch in anderen Forschungsgemeinschaften zu beobachten, deren Aufgabenfelder von Bildern, Sprache und Tabellendaten bis hin zu biomedizinischen Daten oder Reinforcement Learning reichen [6].
Aufgrund der Leistungsfähigkeit von Basismodellen ist die Forschungsgemeinschaft optimistisch hinsichtlich ihrer Anwendbarkeit in der Gesellschaft [6], insbesondere im Gesundheitswesen mit integrierter menschlicher Interaktion. Vor allem die Patientenversorgung bei der Behandlung von Krankheiten erfordert in der Regel Expertenwissen, das begrenzt und teuer ist. Basismodelle, die mit zahlreichen vielfältigen Daten (z. B. Bilder, Texte, Moleküle) trainiert wurden, bieten Möglichkeiten, Wissen aus verwandten Bereichen auf einen spezifischen Bereich zu übertragen und die Effizienz bei der Anpassung weiter zu verbessern, indem die Kosten für die Expertenzeit reduziert werden. Dadurch kann eine schnelle Prototypanwendung eingesetzt werden, ohne dass riesige Datenmengen gesammelt und große Modelle von Grund auf trainiert werden müssen. Umgekehrt können die Endnutzer, die diese Anwendungen direkt nutzen oder auf die die Anwendungen Auswirkungen haben, Rückmeldung geben, um die Basismodelle zu verbessern und maßgeschneiderte Modelle für ihr gewünschtes Ziel zu schaffen (Interaktives Maschinelles Lernen, IML) [7] [8] [9] [10].
Die Entwicklung solcher Modelle in großem Umfang ist jedoch eine anspruchsvolle Aufgabe, die von der Entwicklung der Modellarchitekturen, von der Verfügbarkeit umfangreicher Trainingsdaten und insbesondere von moderner Computerhardware mit leistungsstarken GPUs abhängt. So kann beispielsweise das Training von GPT-3 mit 175 Milliarden Parametern mit einer einzigen V100 NVIDIA GPU etwa 288 Jahre oder sogar noch sieben Monate mit 512 V100 GPUs dauern [11]. Dieses Hindernis stellt eine Anforderung an parallele Techniken dar, mit denen moderne GPUs bezüglich Rechen- und Speicherkapazität erweitert werden.
Referenzen:
[1] Devlin et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Association for Computational Linguistics (ACL) (pp. 4171–4186).
[2] Korngiebel, D. M. & Mooney, S. D. (2021). Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery. NPJ Digital Medicine 4, 93.
[3] Ramesh et al. (2021). Zero-Shot Text-to-Image Generation. Proceedings of the 38th International Conference on Machine Learning. In Proceedings of Machine Learning Research 139 (pp. 8821-8831).
[4] Lewis et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. In Association for Computational Linguistics (ACL) (pp. 7871-7880).
[5] Raffel et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. In Journal of Machine Learning Research (JMLR), 21(140), 1-67.
[6] Bommasani et al. (2021). On the Opportunities and Risks of Foundation Models. arXiv preprint arXiv:2108.07258.
[7] Zacharias, J., Barz, M., & Sonntag, D. (2018). A survey on deep learning toolkits and libraries for intelligent user interfaces. Computing Research Repository eprint Journal (CoRR).
[8] Nunnari, F. & Sonntag, D. (2021). A software toolbox for deploying deep learning decision support systems with XAI capabilities. In Companion of the 2021 ACM SIGCHI Symposium on Engineering Interactive Computing Systems (pp. 44-49).
[9] Nguyen et al. (2020). A visually explainable learning system for skin lesion detection using multiscale input with attention U-Net. In German Conference on Artificial Intelligence (Künstliche Intelligenz) (pp. 313-319).
[10] Sonntag, D., Nunnari, F., & Profitlich, H. J. (2020). The Skincare project, an interactive deep learning system for differential diagnosis of malignant skin lesions. DFKI Research Reports (RR).
[11] Narayanan et al. (2021). Efficient large-scale language model training on GPU clusters. arXiv preprint arXiv:2104.04473.