Herr Prof. Krüger, was sind eigentlich DeepFakes?
Der Begriff DeepFake ist eine Wortkombination aus „Deep“, was auf Deep Learning, einer KI-Technik mit zugrunde liegenden künstlichen neuronalen Netzen hinweist und „Fake“ für Fälschung. Als DeepFakes bezeichnet man grundsätzlich mit Methoden der Künstlichen Intelligenz manipulierte Medieninhalte wie Audio, Photo, Video in einer Qualität, die nicht ohne Weiteres oder gar nicht als Fake, also als Fälschung zu erkennen sind.
Die wohl bekannteste Variante von DeepFakes ist das sogenannte Face-Swap. Das meint den Austausch des Gesichts einer Quellperson mit dem Gesicht einer Zielperson in einem Bild oder einem Video. Damit (und in Kombination mit Audio-Ansätzen) können Aussagen und Handlungen vorgetäuscht werden, die die betreffenden Personen nie gesagt oder ausgeführt haben.
Wie werden solche DeepFakes gestaltet und programmiert?
KI-Systeme zur Erzeugung von Face-Swaps perfektionieren durch den Einsatz von DeepLearning-Methoden mit künstlichen neuronalen Netzen den Fake inkrementell. Dabei liest und lernt ein sogenannter Encoder das Gesicht einer Person, indem er Bildmaterial anhand diverser biometrischer Parameter analysiert und in Merkmalsvektoren zerlegt. Diese werden dann schichtweise zu einem Modell zusammengefügt. Durch das permanente Abgleichen des vom Encoder erzeugten Modells des Gesichts mit dem Original optimiert das KI-System nach und nach das Ergebnis. Hierbei werden oft sogenannte GAN-Ansätze (Generative Adversarial Networks) eingesetzt, bei der zwei neuronale Netze sozusagen im Wettstreit das Ergebnis nach und nach optimieren. Die Trainings umfassen bei wirklich guten Fälschungen dabei 50.000 Iterationen und mehr. Der Decoder erzeugt nun das gefälschte Bild bzw. Video, indem er das Modell des Gesichts in das Zielformat einsetzt.
Im Bereich Audio sind KI-Technologien wie „Text-to-Speech“ (TTS), ein Teilbereich von „Natural Language Processing“ (NLP), schon sehr weit, Stimmen immer realistischer nachzuahmen, sodass synthetischen Stimmen menschlichen immer ähnlicher werden. Schon jetzt gibt es verschiedene verfügbare KI-Anwendungen („Voice Mimicry“, „Lyrebird“, „Voice Cloning“…), die zum Beispiel Stimmen existierender Personen täuschend echt imitieren und die jeder zu Hause ausprobieren kann.
Wie kann man DeepFakes erkennen?
Im technisch forensischen Bereich gilt grundsätzlich: Je höher aufgelöst ein gefaktes Bild oder Video ist, desto eher kann der Mensch die Fälschung anhand minimaler Artefakte und kleinster Fehler ohne Unterstützung eines Computers quasi mit eigenen Augen und Ohren erkennen. Im Bereich Social Media allerdings, in dem DeepFakes hauptsächlich verbreitet werden, handelt es sich in der Regel um Videos und Bilder mit relativ schlechter Qualität. Wenn überhaupt sind diese eher niedrigaufgelösten Medieninhalte wiederum nur durch den Einsatz von speziellen KI-Systemen als Fälschung zu entlarven, die genau darauf trainiert sind. Systeme wie etwa „Reality Defender“ (AI Foundation) oder „FaceForensics“ (TU München) sind starke Assistenzsysteme für Medienforensiker, die dann zusätzlich weitere Parameter und Metadaten wie räumliche Umgebung, Stimme, Zeitpunkt und Ort der Veröffentlichung etc. in ihre Prüfung mit einbeziehen. Ergebnisse solcher Detektionsverfahren könnten allerdings in nächsten Stufen wiederum mit in die Generation der Fakes einbezogen werden, sodass sich das Feld bereits jetzt in einem „Rüstungswettlauf“ befindet.
Unabhängig davon sollten Medien nicht passiv und leichtgläubig konsumiert werden, sondern jeder sollte Inhalte mitlaufend auf ihre kulturell-faktische Plausibilität prüfen.
Welche Gefahren sind mit DeepFakes verbunden?
Der Mensch ist ein soziales Wesen, aber nicht immer ehrlich. Und das Veröffentlichen und Verbreiten von falschen Nachrichten und unwahren Behauptungen ist sehr alt, wahrscheinlich so alt wie die Sprache selbst. Der Mensch ist vor allem auch ein audio-visuelles Wesen. Wenn wir hören, was Jemand sagt, in einer Filmsequenz sehen, was er tut, wirkt das auf uns im ersten Schritt glaubwürdig.
Heute obliegt die Distribution von Nachrichten und Medieninhalten nicht mehr nur den klassischen Medien (Print, TV, Radio), deren übergeordnete Redaktionskontrolle eine Wahrheitsvermutung in gewisser Weise legitimierte. Durch das Internet, insbesondere Social Media, und durch die rasante technische Entwicklung im Bereich der mobilen Endgeräte ist heute nicht nur jeder in der Lage, audiovisuelle Inhalte zu erstellen, sondern diese auch mit relevanter Reichweite zu verbreiten. Apps wie z.B. „Reface“, „Impressions“ oder „DeepFaceLab“ sind praktisch frei verfügbar, programmiertechnische Kompetenzen nur bedingt erforderlich, so dass theoretisch jeder DeepFakes generieren und verbreiten kann.
In der Tat können gefälschte Medieninhalte immensen Schaden anrichten, wenn sie zum Social Engineering, zur Meinungsmanipulation, zur Einflussnahme auf Politik, Wirtschaft und Gesellschaft eingesetzt werden. Zu denken ist an eine Verwendung etwa zur Wahlmanipulation oder an die Diskreditierung von Personen und Unternehmen.
Wie kann man DeepFakes im Kontext von Desinformation vorbeugen und begegnen?
Es gibt wissenschaftlich-technologischen, politischen, juristischen und kulturellen Handlungsbedarf. Technologisch wird an verschiedenen Möglichkeiten gearbeitet, DeepFakes zu verhindern, bzw. deren Enttarnung zu erleichtern. Insbesondere wird der Einsatz von digitalen Wasserzeichen, der Blockchain-Technologie oder der konsequenten Zertifizierung von Software geprüft. Die EU-Kommission arbeitet an einer Regulierung von KI-Technologie. Die Politik ist bestrebt, Content-Distributoren in die Pflicht zu nehmen, um eine Flut von DeepFakes zu verhindern. Unternehmen wie Facebook, Microsoft, Google und Amazon oder staatliche Institutionen wie etwa das amerikanische Verteidigungsministerium investieren große Summen in die Entwicklung von DeepFake Detection Tools. Kulturell geht es darum, bereits an den Schulen Medien- und Informationskompetenz zu vermitteln und generell die Bürger*innen entsprechend zu sensibilisieren, so dass z.B. Wahlentscheidungen nicht durch Fälschungen und falsche Fakten beeinflusst werden können.
Wie wirken sich DeepFakes auf das Vertrauen in Medien aus?
Die Grenze zwischen zulässiger Bearbeitung von Medieninhalten und DeepFake ist fließend. Die moderate Bearbeitung von Photos ist seit Jahren üblich und bekannt. Durch die neue Dimension der DeepFakes werden FakeNews allerdings noch gefährlicher. Es ist zu erwarten, dass die Glaubwürdigkeit von Medieninhalten leiden und das Vertrauen in Medien allgemein weiter erodieren wird. Markante Aussagen von Personen des öffentlichen Lebens, wie z.B. Politikern, stehen dann unter einem generellen Vorbehalt. Falls sie andererseits beispielsweise bei sexistischen oder rassistischen Äußerungen oder beim Lügen gefilmt wurden, könnten sie jederzeit behaupten, es handele sich um DeepFakes. Aber hier wird Künstliche Intelligenz einen wirkungsvollen Beitrag liefern können und die Forensiker bei der Erkennung von medialen Fälschungen unterstützen.
Herr Prof. Krüger, vielen Dank für das Gespräch!