Derzeit erleben wir eine explosionsartige Entwicklung im Bereich der künstlichen Intelligenz, vor allem durch die Fortschritte bei den Methoden des verstärkenden Lernens (RL) sowie auf Transformern basierende neuronale Netze. Große Sprachmodelle (LLMs) zum Beispiel, wie sie von ChatGPT verwendet werden, können beeindruckende Ergebnisse bei der automatischen Textgenerierung vorweisen. KI sollte jedoch nicht nur Kommunikationsintelligenz bedienen, sondern auch Intelligenz in Bezug auf die Interaktion mit der physischen Welt, wie sie z. B. von dynamischen Robotern wie Humanoiden benötigt wird. Aktuelle LLMs und andere große KI-Modelle ermöglichen jedoch kaum physische Interaktion mit der Umwelt. Umgekehrt haben jüngste Fortschritte in der Robotik eine neue Generation von hochdynamischen Robotern hervorgebracht, die beeindruckende dynamische Fähigkeiten haben. Eines der bemerkenswertesten Systeme ist der humanoide Roboter Atlas von Boston Dynamics, der auf natürliche Weise gehen und laufen, 360-Grad-Sprünge und Rückwärtssaltos ausführen und mit einer Agilität tanzen kann, die der eines Menschen nahe kommt. Weitere Beispiele sind die humanoide Roboterplattform Digit (Agility Robotics), der H1-Humanoide von Unitree und verschiedene vierbeinige Roboterplattformen wie MIT mini-Cheetah (Biomimetic Robotics Laboratory, MIT), Alien Go (Unitree) und Vision 60 (Ghost Robotics). Während alle diese Systeme bei einzelnen, genau definierten Aufgaben beeindruckende Ergebnisse erzielen, fehlt die Verbindung zwischen ihren Lokomotionsfähigkeiten, die meist auf fortgeschrittener Mechanik und moderner Steuerungstheorie beruhen, und der künstlichen Intelligenz.
Daher verfolgt ActGPT das folgende Hauptziel:
Die Verbindung der Vorhersagefähigkeiten von großen Sprachmodellen und großen multimodalen KI-Modellen mit den physischen Fähigkeiten komplexer dynamischer Roboter
Eine solche Verbindung zwischen KI und den physikalischen Fähigkeiten dynamischer Roboter, die typischerweise präzise Systemmodelle erfordern, eröffnet mehrere Möglichkeiten, wie z.B. die Verringerung der Abhängigkeit von Expertenwissen und manuellem Engineering bei der Entwicklung von Robotersteuerungsstrategien, allgemeinere Einsetzbarkeit hochdynamischer Robotersystemene und die Verbesserung ihrer Autonomie in sich dynamisch verändernden Umgebungen. Um das Hauptziel zu erreichen, verfolgen wir in ActGPT drei Teilziele:
- KI-Modelle sollen in die Lage versetzt werden, dynamische Roboterbewegungen unter Verwendung von natürlicher Sprache und Bildern als Eingabe zu erzeugen.
- KI-Modelle sollen in die Lage versetzt werden, mit Hilfe von natürlicher Sprache und Bildern als Eingabe optimale Steuerungsprobleme zu synthetisieren.
- Verbesserung der Robustheit und Stabilität großer KI-Modelle, da sie zuweilen unzuverlässige und fehleranfällige Ergebnisse liefern.
Das langfristige Ziel von ActGPT ist die Steuerung eines humanoiden Roboters mit Hilfe von natürlicher Sprache, indem high-level Befehle mit dynamischen Roboterbewegungen verknüpft werden.