„Ja, er hat es wirklich gesagt. Ich habe es mit eigenen Augen in einem Video gesehen!“ – Dieses Argument wird schon bald keiner mehr ernst nehmen können. Videos, in denen eine Person scheinbar etwas sagt, lassen sich schon heute täuschend echt fälschen. Der Betrachter kann dann ein manipuliertes Video, einen sogenannten Deepfake, nicht mehr von einem echten unterscheiden.

Was für viele noch wie Science-Fiction klingt, ist längst Realität. Videos lassen sich so manipulieren, dass Gesichter komplett ausgetauscht werden. Die Kopfbewegungen, die Stimme, ja sogar die Lippenbewegungen werden perfekt dargestellt. In Deepfakes werden (meist berühmten) Personen Wörter in den Mund gelegt, die sie nie gesagt haben. Sie können an einem Ort gezeigt werden, an dem sie nie waren. Sie können Teil eines Films werden, in dem sie nicht mitgespielt haben. Es ist der Albtraum des Faktencheckers.

In diesem Video hält US-Präsident Richard Nixon eine Rede, in der er den Amerikanern zum Absturz und dem Scheitern der Apollo 11 Mission kondoliert. Da die Mission live in Millionen Haushalte übertragen wurde, muss er natürlich sofort Stellung beziehen. Man sieht noch, wie ein Pult eilig vorbereitet wird, damit der Präsident dann traurig erklärt, dass Neil Armstrongs Tod nicht umsonst sein würde. Die Rede, die tatsächlich für den Ernstfall vorbereitet wurde, hat Nixon nie gehalten. Es ist ein Fake, produziert mittels künstlicher Intelligenz. Ein Deepfake.

Deepfake setzt sich zusammen aus Deep Learning (deutsch: tiefgehendes Lernen), einer Methode des maschinellen Lernens, und Fake (deutsch: Fälschung). Mittels maschinellen Lernens kann eine Software menschliche Handlungen und Fähigkeiten nachahmen, die mit Regeln schwer zu beschreiben sind. Beispiele dafür sind die menschliche Sprache und die Gesichtserkennung oder auch die Erkennung bestimmter Gegenstände in Bildern. Damit Google in Letzterem immer besser wird, trainieren Millionen von Internetnutzern die KI täglich, wenn sie irgendwelche Gegenstände anklicken, um zu beweisen, dass sie Menschen sind (Captcha).

Beim Deep Learning benötigt die Software möglichst viele Vorkenntnisse darüber, wo in einem Gesicht Augen, Augenbrauen, Lippen, Kinn und Mundwinkel sind. Alles, was die Mimik und Lippenbewegung ausmacht, muss die Software in einem beliebigen Gesicht erkennen können. Je mehr Daten man sammelt, desto länger dauert die Berechnung, aber desto eindrucksvoller wird auch das Ergebnis. Diese Vorkenntnisse werden ihr mit Unmengen an Bildmaterial von menschlichen Gesichtern, in denen die besagten Regionen markiert sind, antrainiert.

Um daraus ein Deepfake zu produzieren, benötigt man als erstes ein Originalvideo. Für einen Politiker nimmt man einfach eine seiner Reden, in denen die Gestik und die Kopfbewegungen einigermaßen zum Text passen, den man ihn sprechen lassen möchte. Anschließend filmt man einen Schauspieler dabei, wie er den ausgedachten Text vorträgt. Er muss dabei weder seine Stimme verstellen noch seiner Zielperson ähneln. Er muss nur authentisch wirken. Amerikanische Präsidenten vor Trump haben sich noch Mühe gegeben, authentisch empathisch zu sein. Ronald Reagan war sogar ausgebildeter Schauspieler. Im Falle von Donald Trump ist es umgekehrt: Zu viel Empathie könnte den Fake auffliegen lassen. Der Schauspieler muss also seine Zielperson kennen. Ein talentierter Schauspieler benötigt hier – ähnlich einer KI – nichts weiter als möglichst viel Videomaterial. Die künstliche Intelligenz, die aufgrund ihres Trainings nun versteht, wo welche Gesichtsregion beim Schauspieler ist, überträgt dessen Mundbewegungen auf die des Politikers. Theoretisch können dabei sogar Stirnfalten entstehen, wenn die Software ein Vorwissen darüber hat und die Rechenkapazität ausreicht. Die Gestik und Kopfbewegungen brauchen nicht geändert werden. Das neue Video sieht dann aus wie eine Kopie des Originals, nur dass der Mund sich anders bewegt und andere Wörter sagt.

Das Interessante an dieser Vorgehensweise ist, dass die KI abgesehen von dem Originalclip nicht zwangsweise weiteres Bildmaterial von demjenigen benötigt, dessen Worte verfälscht werden. Üblicherweise wird der Schauspieler allerdings zusätzliches Material benötigen, damit er sich einen Eindruck davon machen kann, wie er die Person zu performen hat.

Und die Stimme? Man wählt eine andere Originalrede und lässt möglichst viele Kurzaufnahmen von einem Schauspieler nachsprechen. Dieser gibt sich Mühe, die Worte möglichst genau so zu sprechen wie sein Opfer. Die KI berechnet dann eine Transformation vom Schauspieler zum Opfer. Auch hier gilt: Je mehr Material der Schauspieler nachspricht und je mehr Rechenkapazität zur Verfügung steht, desto genauer wird die berechnete Transformation. Diese Transformation kann nun aus einer beliebigen Sprachaufzeichnung dieses Schauspielers die Stimme seines Opfers generieren.

Die KI zur Stimmtransformation ist damit unabhängig von der KI zur Gesichtsgenerierung. Man könnte mit dieser Technik theoretisch die Stimme von Obama auf das Gesicht von Trump legen, obwohl keiner von beiden die Worte dabei je gesprochen hat.

Hauptsächlich wird die Technologie in der Unterhaltungsindustrie eingesetzt. Beispielsweise nutzt man sie im Film Rogue One (erschienen 2016), welcher eine Vorgeschichte zu dem ersten Star-Wars-Film erzählt (erschienen 1977), um mittlerweile verstorbene Schauspieler wieder zum Leben zu erwecken.

Die Technologie kann derzeit nur begrenzt eingesetzt werden, weil der Mensch den Unterschied nach kurzer Zeit merkt. Die Technik entwickelt sich aber weiter und wird in nur wenigen Jahren möglicherweise nicht mehr einfach zu entlarven sein. Man könnte einwerfen, dass man zur Aufdeckung von Deepfakes wiederum eine KI verwenden kann. Hier sieht es derzeit leider düster aus: Facebook veranstaltete einen weltweiten Wettbewerb, in dem Softwareentwickler versuchen sollten, eine KI zu bauen, die selbst in der Lage ist, Deepfakes von echten Aufnahmen zu unterscheiden.

Über 2000 Entwicklerteams reichten ab September 2019 ihre Lösungen ein. Den eingereichten Programmen wurde ein Pool von Videos zur Beurteilung übergeben. Dieser Pool bestand zu 50 % aus echten Videos und zu 50 % aus vorher nicht veröffentlichten Deepfakes. Das beste aller eingereichten KI-Programme konnte in etwa 65 % aller Fälle die richtige Entscheidung treffen. Ein ziemlich schlechtes Ergebnis, wenn man bedenkt, dass jeder Zufallsalgorithmus eine Trefferquote von 50 % hat. Außerdem ist die Ausgangslage, in der 50 % der Videos Deepfakes sind, absolut realitätsfern. 99,9 % oder mehr aller Videos im Internet sind keine Deepfakes. Eine KI zur Erkennung von Deepfakes müsste also eine sagenhafte Trefferquote haben, damit es die 0,01 % der Deepfakes überhaupt zuverlässig findet – ohne zu viele falsch-positive Resultate. Ansonsten sind sie ähnlich sinnvoll einsetzbar wie ein Virentest, dessen Ergebnis oft fälschlicherweise positiv ist, das tatsächliche Virus aber so gut wie nie erkennt. KIs zur Erkennung von Deepfakes haben also noch einen weiten Weg aufzuholen.[1]

Die eigentliche Gefahr

Die Unterhaltungsindustrie ist nicht das einzig denkbare Anwendungsfeld.
Was wäre, wenn die Feinde der Muslime beispielsweise einen Deepfake produzieren, um Muslime gegeneinander aufzuhetzen? Wenn ein Video um die Welt geht, in dem Imam Chamenei irgendetwas Unglaubliches sagt, was er in Wahrheit nie gesagt hat? Nicht eines, in dem er Donald Trump trifft und ihn lobt – das würde keiner glauben. Aber vielleicht ein scheinbar geleaktes Video, angeblich heimlich aufgenommen (was die schlechte Bildqualität rechtfertigt), in dem er das türkische Volk beleidigt. Es wären zweifelsfrei sein Gesicht und seine Stimme. Wenn wir unseren Augen und Ohren so sehr vertrauen, wie wir es derzeit gewohnt sind, ist es möglich, Falschmeldungen mit enormem Gewicht zu verbreiten. Man könnte Videos produzieren, die die Moral der Anhänger des Widerstands schwächen. Im schlimmsten Fall lassen sich auf diese Weise Kriege anzetteln.

Vermutlich würde sich bei einem Deepfake über einen Politiker in wenigen Tagen oder Wochen herumsprechen, dass es nicht echt ist. Immerhin dürfte sofort ein Dementi erfolgen. Aber würde das jeder sofort glauben? In der kurzen Zeit, in der diese Unsicherheit herrscht, können bereits große Schäden entstehen. Muslime sollten daher mit dem Einsatz von Deepfakes gegen sie rechnen, bevor sie entstehen, um einem möglichen böswilligen Plan den Wind aus den Segeln zu nehmen.

Seriöse Medien lassen sich die Echtheit von Videos von Experten verifizieren. Doch auch diese Experten könnten es in Zukunft sehr schwer haben. Die logische Schlussfolgerung scheint zu sein, dass man eben nichts mehr glauben darf, nur weil man es im Video gesehen hat. Das ist das Paradoxe am technologischen Fortschritt. Die Anpassung daran erfordert, auf ihn zu verzichten und klassische Wege der Verifizierung zu gehen.

Die klassische Zeugenschaft

Der klassische Weg zum Überprüfen der Echtheit einer Aussage ist die Zeugenschaft. Sie bekommt im Islam in verschiedenen Situationen eine große Bedeutung. Beispielsweise im Testament:

„O ihr, die ihr glaubt, wenn einer von euch im Sterben liegt und sein Testament machen will, so soll das Zeugnis unter euch erfolgen durch zwei gerechte Leute von euch – oder durch zwei andere, die nicht von euch sind, wenn ihr im Land umherwandert und euch das Todesunglück trifft.“ [Quran 5:106]

Der Islam legt einen besonderen Wert auf die Glaubwürdigkeit der Zeugen, weshalb man nur diejenigen wählen darf, die als gerecht bekannt sind. In einigen Fällen, insbesondere im Bereich des Strafrechts, werden mehr Zeugen benötigt (vgl. 4:15). Im Bereich des Handels ordnet der Quran sogar an, dass es Zeugen für ein schriftliches Dokument gibt.

„O ihr, die ihr glaubt, wenn es unter euch um eine Schuld auf eine bestimmte Frist geht, dann schreibt es auf. Ein Schreiber soll in eurem Beisein der Gerechtigkeit gemäß aufschreiben. Kein Schreiber soll sich weigern, zu schreiben, wie Gott ihn gelehrt hat. Er soll schreiben, und der, gegen den das Recht besteht, soll diktieren, und er soll Gott, seinen Herrn, fürchten und nichts davon abziehen. (...) Und lasst zwei Zeugen aus den Reihen eurer Männer bezeugen. Wenn es aber keine zwei Männer gibt, dann sollen es ein Mann und zwei Frauen sein aus den Reihen der Zeugen, mit denen ihr einverstanden seid, so dass, wenn eine der beiden sich irrt, die eine von ihnen die andere erinnern kann. Die Zeugen sollen sich nicht weigern, wenn sie dazu aufgerufen werden.“ [Quran 2:282]

Wozu noch zwei Zeugen, wenn es doch schon schwarz auf weiß steht? Natürlich als Absicherung vor Fälschung. Die Zeugen werden auch benötigt, wenn ein Deal per Video oder Audio festgehalten werden sollte.

In diesem Video warnt Barack Obama uns in sehr vulgären Worten vor der Ära der Deepfakes. In Wahrheit kommt die Warnung vom Schauspieler und Regisseur Jordan Peele, der die Worte Obama in den Mund legt. Offenbar befürchtet er, dass die USA selbst Opfer von Deepfakes werden könnten. Dass niemand anderes als die USA die besten technologischen Möglichkeiten und die geringsten moralischen Hemmungen zum böswilligen Einsatz von Deepfakes besitzen, unterschlägt er hierbei. Er empfiehlt, nur vertrauenswürdigen Nachrichtenquellen Glauben zu schenken. Auch wenn seine Maßstäbe für Vertrauenswürdigkeit andere sein dürften als die, die der Quran vorgibt, hat er im Prinzip recht. Wenn es darum geht, eine Nachricht anzunehmen oder zu verwerfen, muss man zu der klassischen Zeugenschaft auch vertrauenswürdige Webseiten, Nachrichtenagenturen und Journalisten zählen. Der Quran verlangt hier die Gerechtigkeit, also insbesondere das Befolgen von Gottes Gesetzen. Wer öffentlich sündigt, kann nicht vertrauenswürdig sein.

Der wichtigste Grundsatz im Kampf gegen Deepfake Videos sowie gegen jede Art von Falschinformation wird vom Quran in einem sehr bekannten Vers erwähnt:

„O ihr, die ihr glaubt, wenn ein Frevler mit einer Nachricht zu euch kommt, so stellt es eindeutig fest, damit ihr nicht (einigen) Leuten in Unwissenheit etwas antut und dann bereuen müsst, was ihr getan habt.“ [Quran 49:6]

Bisher haben wir uns an diesen Vers erinnert, wenn unsere Augen nicht selbst gesehen und unsere Ohren nicht selbst gehört haben. Bisher achtete man darauf, dass Videos nicht böswillig aus dem Zusammenhang gerissen oder falsch übersetzt wurden. War das nicht der Fall, hat man den Nachrichtenüberbringer zu selten hinterfragt. Spätestens jetzt sollten wir anfangen, den genannten Quranvers bei jedem Video, das im Internet kursiert, zu berücksichtigen.


  1. https://arxiv.org/pdf/2006.07397.pdf ↩︎