Wir leben erstaunlich gut auch ohne Antworten auf erste Menschheitsfragen. Und sogar so gut, dass Fragen nach dem Woher, dem Wohin, dem Sinn in unserer Aufmerksamkeit kaum eine Rolle spielen. Es sei denn, unsere alltäglichen Antworten sind mit außer-alltäglichen Belastungen nicht mehr auf Augenhöhe, und wir müssen Leerstellen und Lücken zugeben, wo wir lebensweltliche Orientierung für neue Herausforderungen brauchen. Der aktuelle Erfolg von generativer Künstlicher Intelligenz wie beispielsweise dem Dialogsystem ChatGPT produziert eine solche Konstellation, verändert die Tagesordnung und erzeugt damit eine diskursive Dringlichkeit.
John Hopfield, der im Jahr 2024 für seine grundlegenden Arbeiten zu künstlichen neuronalen Netzen mit dem Physiknobelpreis ausgezeichnet wurde, erklärte während seiner Dankesrede, dass er motiviert wurde durch die Frage, wie der Geist aus dem Gehirn entsteht. Für Hopfield ist dies die tiefste Menschheitsfrage – die Antwort steht noch aus. Aber künstliche neuronale Netze werden seit dem Jahr 2010 für die Leistungssteigerung von KI-Anwendungen eingesetzt und treiben radikale Innovationen, die unhinterfragte menschliche Selbstverständlichkeiten in ein neues Licht stellen. Seitdem sich maschinelle und menschliche Leistungsfähigkeit in relevanten Anwendungen zunehmend überlappen, ist die Frage „Was ist der Mensch?“ abermals und die Frage „Was unterscheidet Mensch und Maschine prinzipiell?“ das erste Mal in den Fokus gerückt.
Der technische Ansatz der künstlichen neuronalen Netze ist inspiriert von beobachtbaren elektro-chemischen Verarbeitungsprozessen in Gehirnen. Gehirne sind Organe, finden sich in vielen Lebewesen, in allen Säugetieren, also auch im Menschen. Eine wesentliche Fähigkeit, die man dem Gehirn zuschreibt, ist das Konzept der Kausalität als Zusammenhang zwischen Ursache und Wirkung. Naturkausalität bezieht sich auf notwendig eintretende Wirkungen in der objektiv-realen Umwelt beim Auftreten einer Ursache. Menschen haben in den vergangenen 5000 und besonders in den letzten 500 Jahren eine eskalierende Kompetenz entwickelt, Naturkausalitäten in der Form von Naturgesetzen zu fassen und deren Verallgemeinerungsgrad und Beschreibungstiefe fortlaufend gesteigert.
Die beiden Philosophen David Hume und Immanuel Kant haben im 18. Jahrhundert unterschiedliche Konzepte für die Herleitung von Kausalität entwickelt – abgeleitet aus Daten und Erfahrung (Hume 1748) oder als angeborenes Konzept von Notwendigkeit (Kant 1781). Arthur Schopenhauer widersprach beiden. Er wies auf das Flucht- oder Jagdverhalten von Tieren hin, das ohne ein instinktives „Verständnis“ von Kausalität nicht erklärbar sei. Der Umgang mit Naturkausalität wird damit zur definierenden Eigenschaft des Gehirns eines Lebewesens und nicht erst des denkenden Verstands. Im Unterschied zum Gehirn ist Naturkausalität indes keine definierende Eigenschaft, die integrierten Schaltkreisen innewohnt. Sondern eine Leistung, die Software dann liefert, wenn Modelle integriert sind, welche die physikalischen Zusammenhänge explizit abbilden. Siliziumchips sind keine Elektronen-Gehirne, denn dann würden sie Kausalität mitbringen. Sie sind auch kein elektronischer Verstand, denn dann könnten sie sprachlich argumentieren. Und das ist weder Wortklauberei noch KI-Defätismus, sondern Werkzeugrealismus.
Bei Menschen spricht man von Verstand und ist seit der Antike der Ansicht, dass das Denken ein menschliches Spezifikum ist und ihn von anderen Säugetieren, aber auch von den nicht-menschlichen Primaten unterscheidet. Für das menschliche Denken wesentlich ist die Bedeutung von Sprache. Tiere haben keine Sprache im Sinne der symbolischen Interaktion, die auf der Fähigkeit zur bedeutungsidentischen Verwendung von Zeichen basiert. Man kann so weit gehen wie Johann Gottfried Herder, der einmal sagte: „Ohne Sprache hat der Mensch keine Vernunft, und ohne Vernunft keine Sprache.“ Oder wie Wilhelm von Humboldt, der anmerkte: „Die Sprache ist das bildende Organ des Gedanken.“
Ohne Wörter keine Sprache, ohne Bedeutung keine Gedanken, ohne Denken kein Verstand. Das Konzept von Sprache, das in den aktuell erfolgreichen Anwendungen von generativer KI verwendet wird, hat zwar zu hochleistungsfähigen KI-Systemen geführt, ist aber unterkomplex und eindimensional auf die sprachliche Oberfläche ausgerichtet. Es vernebelt die Einsicht, dass Intelligenz kein statistisches Phänomen, dass Sprach-produktion mehr als die Ausgabe von wahrscheinlichen Wortfolgen ist – und behindert in seiner Dominanz die Entwicklung von Lösungen, die einen Mensch-Maschine-Wissensdiskurs überhaupt erst ermöglichen.
Aber ist es nicht so, dass der verblüffende Qualitätsaufwuchs der vergangenen zehn Jahre getrieben wurde und wird durch die fortlaufende Steigerung der Rechenleistung, die Menge der zur Verfügung stehenden Daten und durch Sprachmodelle mit Milliarden von Parametern? Das ist nicht kontrovers, wird aber in der Form der Skalierungshypothese problematisch, die unterstellt, dass die Leistung auch weiter proportional zu Datenmenge und Rechenpower wächst, so dass lediglich ein Ressourcen- und Investitionsproblem zu bearbeiten sei, bis maschinelle Intelligenz als künstliche allgemeine Intelligenz vollumfänglich die menschliche Intelligenz überholt. Die Skalierungshypothese wird in der aktuellen KI-Forschung kontrovers diskutiert. In einem in der Mitte des vergangenen Jahres erschienenen Zwischenbericht über „Advanced AI Safety“ heißt es: „Würde eine fortgesetzte „Skalierung“ und Verfeinerung bestehender Techniken zu schnellen Fortschritten führen, oder ist dieser Ansatz grundsätzlich begrenzt, und werden unvorhersehbare Durchbrüche in der Forschung erforderlich sein, um die allgemeinen KI-Fähigkeiten wesentlich zu verbessern? Diejenigen, die der Meinung sind, dass ein Durchbruch in der Forschung erforderlich ist, sind oft der Meinung, dass die jüngsten Fortschritte grund¬legende Herausforderungen wie den gesunden Menschenverstand und flexible Weltmodelle nicht überwunden haben.“
Künstliche Intelligenz verstanden als Digitalisierung menschlicher Wissensfähigkeiten muss eine nachvollziehbare Vorstellung davon anbieten, was das Menschliche und der „gesunde Menschenverstand“ sind. Erst auf dieser begrifflichen Grundlage sind prinzipielle Grenzen und Einschränkungen adressierbar, die sich durch das Hochskalieren von personellen, finanziellen und technischen Ressourcen überwinden lassen. Und welche nicht. Es geht eben nicht um Storytelling, sondern um Werkzeugrealismus, nicht um Börsenhypes, sondern um tragfähige Grundannahmen und gesellschaftliche Innovationsmündigkeit. Bei Wissensfähigkeiten geht es um Wissen und Fähigkeiten. Unter Wissen sind in einem umfassenden Sinn kognitive, kulturelle, soziale, aber auch handwerkliche, prozessuale, technische und historische Kenntnisse zu verstehen. Und Fähigkeiten bedeuten, dass Wissen als Knowhow absichtlich, planvoll und praktisch angewendet wird, um Ziele zu erreichen. Das können persönliche sein, aber auch die der Gemeinschaft, und so, dass der Akteur oder die Akteurin in der Lage ist, in einem Abwägungsprozess die einen zugunsten der anderen zurückzustellen.
Künstliche neuronale Netze ermöglichen die maschinelle Identifikation von Mustern und die Klassifikation von Zuständen und Abläufen. Beliebige Objekte Klassen zuordnen zu können, kann etwas Bekanntes identifizieren oder die Aufmerksamkeit auf Anomalien lenken. In beiden Fällen erhöht sich die Informationsdichte in der Interaktion mit der Umwelt. Maschinelle Assistenzsysteme können bei bildgebenden Verfahren in der Medizin die Effizienz und Qualität der Diagnostik unterstützen und verbessern. Marktgängige KI-Anwendungen können assistieren, aber man kann mit ihnen nicht diskutieren. Sie sind nicht geeignet für Anwendungen, in denen es um Wissenserwerb oder Wissensvermehrung geht. Mustererkennung kann Sprache in einem akustischen Strom segmentieren, Signalabschnitten Wörter zuordnen und Diktiersysteme ermöglichen, die gesprochene Sprache in geschriebene Texte überführen. Das Ergebnis ist für die Nutzenden ein Effizienz-, aber kein Erkenntnisgewinn. Eine Verschriftlichung kann helfen, um vorhandene oder fehlende Relevanz besser einordnen zu können, aber es entsteht gedanklich nichts Neues, wenn die gesprochenen Wörter auf dem Display stehen.
Wichtig ist, dass Nutzende unmittelbar und kompetent beurteilen können, ob die Spracherkennung zuverlässig gearbeitet hat. Man sollte auch maschinelle Text-übersetzung ausschließlich dann einsetzen, wenn man die Adäquatheit des ziel-sprachlichen Übersetzungsergebnisses selber beurteilen kann. Generative KI adressiert zielgenau die Lücke zwischen passiven und aktiven Wissensfähigkeiten. Viele verstehen eine Fremdsprache eben besser als sie diese sprechen können. Das mag angesichts der markigen Schlagzeilen unbefriedigend erscheinen, ist aber viel wert, chancenreich und arbeitsunterstützend. Für die Wissensinteraktion bedeutet das, dass man in der Interaktion mit aktuellen Chatbots nicht davon ausgehen darf, neue Kenntnisse erwerben zu können. Chatbots kann man als „Lehrende“ nur dann einsetzen, wenn Lernende das Wissen schon haben und eigene Kenntnisse lediglich aktualisieren wollen.
Die auf Sprachmodellen und künstlichen neuronalen Netzen basierenden Chatbots ermöglichen leistungsfähige Assistenzsysteme in einer verblüffenden Anwendungsbreite und Anwendungsqualität. Für sich betrachtet sind es aber miserable Diskurspartner. Menschlichen Diskurspartnern gewähren wir einen Vertrauensvorschuss. Kann jemand auf Nachfrage verlässliche Quellen benennen und eine Aussage argumentativ nachvollziehbar begründen, kann die Behauptung zur Grundlage einer Richtungsentscheidung werden. Die faktische Korrektheit von Chatbot-Ausgaben ist möglich, aber nicht verlässlich. Die maschinell erzeugten Wortketten sind keine vertrauenswürdigen Aussagen.
Ein Wissensdiskurs ist durch den Austausch von Aussagen definiert, setzt strukturell Herrschafts- oder Hierarchiefreiheit voraus, bei den inhaltlichen Beiträgen Relevanz, unter den Teilnehmern und Teilnehmerinnen Wahrhaftigkeit und die Möglichkeit der wechselseitigen Perspektivenübernahme. Aussagen können als Behauptungen geäußert werden, für die Sprechende Zustimmung in Anspruch nehmen und somit in der intellektuellen oder möglicherweise vertragsrechtlichen Haftung stehen. Die Korrektheit einer Behauptung beweist sich durch den Verweis auf nachvollziehbare objektiv-realweltliche Tatsachen. Der Diskurs ist ein Prozess, in dem es darum geht, ein konstruktives Ergebnis dialogisch zu erarbeiten. Und dies idealerweise geleitet von der Idee, dass der zwanglose Zwang des besseren Arguments zu einer Einigung und einer geteilten, gemeinsamen und handlungsleitenden Überzeugung führen kann.
Damit wir von KI sozial und kulturell profitieren können, müssen wir versuchen, Maschinen zu „Partnern“ in Wissensdiskursen zu promoten, und zwar ohne die prinzipiellen Mensch-Maschine-Unterschiede auszublenden. Zu den Unterschieden gehören auf der Seite der Maschine Empfindungs-, Bedürfnis- und Bindungsunfähigkeit, fehlende Perspektivenübernahme, soziale, politische und kulturelle Unmündigkeit. Alle Angaben sind immer ohne Gewähr. Aber Maschinen können wir den interesselosen „Blick von Nirgendwo“ zutrauen. Das Problem ist die Verlässlichkeit. Eine Lösungschance bietet die Hybridisierung der Systemarchitektur, so dass man die großen Sprachmodelle der generativen KI für die Aufgabensegmentierung der Eingabe und die sprachliche Oberfläche der Ausgabe einsetzt, aber für Inferenz, Deduktion, Verifikation symbolische KI und Wissensgraphen verwendet.
Wir sollten nicht vergessen, dass Hopfields Eingangsfrage noch nicht beantwortet werden kann. Obwohl wir nicht wissen, wie das Selbst und sein Bewusstsein aus den organisch-leiblichen Grundlagen hervorgehen, können wir das Ich und seine Entstehung ideengeschichtlich ergründen – immer mit den Aussichten für die Chancen und Grenzen von maschineller Intelligenz im Hinterkopf.
Seit Descartes wird der politische, aber auch kulturelle Alltag des Westens von einem dogmatischen Dualismus dominiert. Antonio Damasio bezeichnete diese „Trennung der raffiniertesten Operationen des Geistes von der Struktur und Funktionsweise eines biologischen Organismus“ als Descartes’ Irrtum. Kennzeichnend für den dualistischen Ansatz der Subjektphilosophie ist die Selbstentfaltung des atomaren Ich auf der Grundlage seiner transzendentalen Talente – dazu gehören für Kant das Verständnis von Notwendigkeit, die Substanz als das Bleibende, Raum und Zeit als die reinen Formen der sinnlichen Anschauung. Das empirische Ich der Subjektphilosophie findet sich von innen nach außen in die Welt hinein, die ihm als das Andere, das Fremde, und als Widerstand gegenüber steht oder als Mittel für die Erzielung eigener Zwecke dient.
Wir sehen Descartes’ moderne Philosophie und die Aufklärung von Hume, Kant und Fichte als fast zeitgenössisch an. Und wir verwenden die Begriffe Subjekt und Objekt alltagssprachlich als Entgegensetzung. Diese frontenbildende Fundamentalopposition wurde überwunden, als der soziale und sprachgebundene Entstehungsprozess des Ich experimentell reflektiert wurde. Der Anthropologe Michael Tomasello bezeichnet die für die Ich-Bildung entscheidende Entwicklungsphase des kindlichen Säuglings als „Neunmonatsrevolution“ in der Menschwerdung: Das Ich entsteht erst und durch die sprachgebundene soziale Interaktion. Sprache ist das Leitmedium der Vergesellschaftung und kein Oberflächenphänomen, sie ist der Katalysator, der das vorbewusste in das bewusste Ich überführt. Die Weiterentwicklung von KI sollte von diesem Paradigmenwechsel inspiriert werden, damit der wissenszentrierte Mensch-Maschine-Diskurs nicht weiter in belangloser Wahrscheinlichkeit verharrt.
Die linguistische Wende nimmt das Medium der Sprache ernst, erschöpft sich nicht in einer innovativen Interpretationsmethode, sondern eröffnet eine fundamental neue Perspektive auf das Werden des Ich. Habermas sieht die Philosophiegeschichte als Aufeinanderfolge von drei Paradigmen: „Demnach wird erst die Metaphysik von der Subjektphilosophie abgelöst, und diese wiederum von der Sprachphilosophie.“ Die linguistische Wende übersteigt die Subjektphilosophie, indem sie den Entstehungsprozess des Ich neu sieht und in der sprachlichen Interaktion positioniert. Das heißt: Sprache, Gründe und Bedeutung sind wesentlich, um ein Gegenüber als Gesprächspartner zu akzeptieren. Diesen Anspruch können Maschinen nur dann erfüllen, wenn sie Ausgaben nicht mehr auf der Grundlage von Wahrscheinlichkeiten, sondern auf der Basis von Begründungen produzieren.
Mit der linguistischen Wende wird das Ich als eine grundsätzlich sozial und sprachlich konstruierte Identität verstanden. Diese entsteht in der frühkindlichen Interaktion dadurch, dass sich der Säugling in den ersten Lebensmonaten in einem intensiven Zusammensein mit seinen Bezugspersonen befindet, die ihn fortlaufend schon als ein „Ich“ ansehen und ansprechen. Multimodal mit Berührungen, Liebkosungen, Blicken. Die Anderen fordern das Kind heraus, ein Ich zu sein und bewirken damit sein Werden. Das Ich der linguistischen Wende entsteht von außen nach innen. Das empirische Ich hat rückblickend keinen bewussten Zugriff auf seinen vorbewussten, sozialen Entstehungsprozess. Seine soziale Wurzel ist abstrakt. Seine Wünsche erlebt das Ich sehr konkret. Es trifft sich in seinem Bewusstseinsstrom als Akteur an, der leibliche Bedürfnisse hat nach Luft, Wasser, Nahrung, und Wünsche nach Nähe und Gemeinschaft, Bestätigung, Anerkennung und Austausch, nach Verlässlichkeit, Sicherheit und Freiheit.
Die gesellschaftlich und kulturell problematische Konsequenz des subjektphilosophischen Dualismus sind die Frontenbildung und die daraus resultierenden Reibungen und Verhärtungen. Das Ich der Bedürfnisse wird zum rechthaberisch fordernden Subjekt der Ansprüche. Im dualistischen Paradigma sind die Anderen nicht die Hebammen des Selbst, sondern der zu überwindende, lästige weltliche Widerstand, der die als berechtigt empfundene Lusterfüllung begrenzt und als Hindernis im Weg steht.
Sprache und soziale Interaktion sind die „Eltern“ unseres Ich. Das Ich-Konzept der linguistischen Wende verändert die Sichtweise auf die Wurzel der menschlichen Individualität. Diese enthält das in jeder Faser seines Gewebes sprachlich vergesellschaftete Ich als das Selbst des Selbstbewusstseins. Das Potential bringt jeder Mensch mit – und eben kein anderes bekanntes Wesen. Das Gewebe wird durch das Zusammensein mit den Anderen gebildet. Das Miteinander lockt, fordert, vergesellschaftet und formt das Ich. Die anderen sprechen uns schon immer als ein Du an, so dass das Subjekt nicht umhin kann, sich als „Ich“ zu entdecken. Das bedeutet Sprache als das Medium der Vergesellschaftung.
Ein KI-Ansatz, der die Rolle von Sprache zu einer Sammlung und Ausgabe von Wortketten trivialisiert, verpasst die Chancen im Moment ihrer technischen Realisierbarkeit. Sprache ist nicht lediglich ein Kommunikationswerkzeug, sondern sie zieht uns an den Haaren aus einem vorbewussten Zustand in die menschliche Welt der symbolischen Interaktion.
Wie passen die KI-Anwendungen auf der Basis großer Sprachmodelle und künstlicher neuronaler Netze zu dem Begriff des sprachlich vergesellschafteten Subjekts der linguistischen Wende? Die Rolle der Sprache ist in beiden Fällen dominant. Große Sprachmodelle bilden die sprachliche Oberfläche und die Verwendung von Wörtern in Wortketten ab. Sie sind datengetrieben, arbeiten probabilistisch, die Ausgaben sind wohlklingend und syntaktisch meistens korrekt. Ein Chatbot behauptet nichts, er erzeugt nur Ausgaben und deshalb ist er kein Gesprächspartner. Aber die Ausgaben – und das erzeugt eine gesellschaftliche Gefahr – können von den Nutzenden mit Behauptungen verwechselt werden. Die Aussagen sind möglicherweise zutreffend, aber es gibt keine Gewährleistung, keine verlässliche Inferenz, und wenn während der Verarbeitung Kommentare eingeblendet werden wie „Denkvorgang“, dann dient das der Unterhaltung des Nutzers und der User Experience. Es ist aber eigentlich ein Akt der Desinformation, denn das KI-System denkt nicht.
Die linguistische Wende der maschinellen Intelligenz bedeutet, Sprache nicht mehr als Oberflächenphänomen zu behandeln, sondern als Werkzeug ernst zu nehmen. Erst dann werden wir Maschinen konstruieren können, die Sprache nicht nur verarbeiten, sondern verstehen, die nicht nur Wortketten erzeugen, sondern Aussagen nachvollziehbar und transparent begründen können. Erst dann ist ein Mensch-Maschine-Diskurs vorstellbar, in dem Lösungen für Wissensprobleme ko-kreativ entstehen können. Wissens- und Erkenntnisprobleme sind überreichlich vorhanden.
Reinhard Karger ist theoretischer Linguist, seit 1993 Mitarbeiter, seit 2011 Unternehmenssprecher, seit 2022 Mitglied des Aufsichtsrats des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI).
Original-Artikel in der FAZ:
https://www.faz.net/aktuell/wirtschaft/kuenstliche-intelligenz/zukunft-der-ki-chatbots-sind-keine-gespraechspartner-110212293.html