Sind Deepfakes eine epistemische Herausforderung?
Ende 2017 verbreiteten sich Medienberichte über eine Software eines anonymen Programmierers, die täuschend echte pornografische Videos von Prominenten ausschließlich mithilfe der Google-Bildersuche, Stockfotos und YouTube-Sequenzen sowie einen als Vorlage dienenden Pornofilmes herstellen konnte1. Der Nutzername des anonymen Programmierers auf Plattform Reddit, die zur Verbreitung der Videos verwendet wurde, wird heute in der Öffentlichkeit als Schlagwort für eine aus technologischer Sicht hochspannende Innovation2 benutzt, die jedoch scheinbar zur „Erosion des Wissens in demokratischen Gesellschaften" führen soll3. Deepfakes, so lautet das Schlagwort, wurden im November 2019 in China sogar verboten4, ebenso wie in einigen US-Bundesstaaten, allerdings hier mit der Einschränkung, dass sich der Verbotszeitraum auf 60 Tage vor einer Wahl begrenzt5. Die schnellen Entwicklungen in den letzten zwei Jahren -- von gefälschten pornografischen zu vermeintlich staatsgefährdenden Inhalten -- haben Deepfakes nicht nur ins Licht der Öffentlichkeit gerückt, sondern auch die Aufmerksamkeit der Philosophin Regina Rini geweckt. In ihrer Publikation „Deepfakes and the Epistemic Backstop" warnt sie unter anderem davor, dass die durch Deepfakes ausgelösten Verwerfungen „unsere sozialen und politischen Systeme" beschädigen können6. Allerdings sind einige von Rinis Thesen und Argumente diskutabel, sodass sich die Frage stellt, ob tatsächlich Deepfakes eine epistemische Herausforderung darstellen. Im Folgenden werden Rinis Kernthesen als Grundlage dienen, um diverse von der Ausgangsfrage aufgeworfene Aspekte zu behandeln. Der Fokus wird dabei auf die Möglichkeit, mithilfe von Deepfakes den öffentlichen Diskurs zu beeinflussen, gelegt.
Dieser Essay wurde von mir im Rahmen des Seminars "Philosophie der Algorithmen" an der ETH Zürich geschrieben.
Aufnahmen haben einen besonderen Stellenwert im öffentlichen Diskurs indem sie einen epistemischen Auffangmechanismus darstellen
Aufnahmen7 sind heutzutage allgegenwärtig und nicht mehr aus dem Alltag und dem öffentlichen Diskurs wegzudenken. Laut Rini stellen Aufnahmen dabei einen epistemischen Auffangmechanismus für unsere Aussagen und Zeugnispraktiken dar. Zum einen nähmen sie eine aktiv korrigierende Rolle ein, indem mithilfe von Aufnahmen Aussagen auf ihren Wahrheitsgehalt überprüft werden könnten. Als Beispiel führt Rini die Tonbänder aus dem Weißen Haus auf, die den damaligen US-Präsidenten Richard Nixon der Lüge überführt haben. Ein aktuelleres Beispiel, bei dem Videos einen maßgeblichen Anteil an der Glaubwürdigkeit und auch an der öffentlichen Wirksamkeit hatten, sind die „Strache-Videos"8 bei der sogenannten „Ibiza-Affäre". Die Existenz der Videos hat nicht nur dazu geführt, dass die Beschuldigten die Vorwürfe nicht glaubhaft zurückweisen konnten9, sondern auch dass sich die Öffentlichkeit selbst ein Bild von dieser bizarren Situation machen konnte. Ohne die Videos hätten die Recherchen sicherlich eine geringere Aufmerksamkeit bekommen. Wichtig hierbei ist, dass es keinen Zweifel an der Echtheit der Aufnahmen gab.
Neben der aktiv korrigierenden Funktion von Aufnahmen beschreibt Rini eine passiv regulierende Rolle, die sie selbst für die wichtigere hält, was sie unter anderem mit aufkommenden Krisen des Auffangmechanismus („backstop crises") erklärt10. Zunächst meint Rini mit der passiv regulierenden Funktion, dass wir selbst ehrlich seien, da wir jederzeit aufgenommen werden könnten, womit wir bei einer Falschaussage der Lüge bezichtigt werden könnten. Außerdem folge daraus, dass man auch bei anderen Personen annehmen könne, dass diese wiederum ehrlich ist. Im Zeitalter der Deepfakes ginge diese Funktion allerdings verloren, da wir durch „backstop crises" weniger zur Ehrlichkeit motiviert seien.
Obwohl die aktiv korrigierende Funktion sicherlich für einen Großteil der in den Medienberichten vorkommenden Videosequenzen zutrifft, sollte nicht vergessen werden, dass es schon seit langer Zeit unverfälschte Aufnahmen gab, die allerdings in einem veränderten Kontext oder in einer verkürzten Version eine andere Aussage haben. Als Paradebeispiel kann die Kontroverse um den Stinkefinger des damaligen griechischen Finanzministers Yanis Varoufakis genommen werden11. Im Originalvideo, von dem bei Günther Jauch ein kurzer Ausschnitt gezeigt wurde, zeigt Varoufakis Deutschland den Mittelfinger. Was allerdings in der gesamten Sendung nicht besprochen wurde ist, dass Varoufakis im Originalvideo sagt, dass es gerade keine Option sei, Deutschland den Mittelfinger zu zeigen. Dass Varoufakis selbst nicht auf diesen Fakt hinweist, sondern irrtümlicherweise von einer Fälschung spricht, hat zur Aufklärung der Situation sicherlich auch nicht beigetragen12. Bereits Rini hat in ihrem Text darauf hingewiesen, dass wir möglicherweise schlicht zu viel Vertrauen in Aufnahmen gesteckt haben und nun durch die Debatte um Deepfakes lediglich unser Vertrauen auf ein angemessenes Maß gesenkt wird.
Auch die von Rini als wichtig angesehene passiv regulierende Funktion von Aufnahmen muss zumindest kritisch hinterfragt werden. Selbstverständlich sind die von ihr gewählten Beispiele intuitiv einleuchtend und man kann sich aus der eigenen Erfahrung Beispiele suchen. Allerdings ist nicht zu leugnen, dass es dennoch viele Personen gibt, die in die Kamera lügen. Sicherlich kann man Donald Trump an dieser Stelle nennen, der laut Washington Post in seinen ersten drei Jahren als US-Präsident über 16'000 falsche oder irreführende Aussagen getätigt hat13, wovon viele auf Video festgehalten wurden.
Deepfakes haben Besonderheiten gegenüber gefälschten Fotos (und andersartiger Videomanipulation)
Der Begriff „photoshoppen" gehört bei vielen Menschen bereits lange zum Alltag. Obwohl Fotomanipulation allgegenwärtig ist, gab es noch keine epistemische Katastrophe. Laut Rini kann man Deepfakes allerdings nicht mit Fotomanipulation gleichsetzen, was sie mit vier Argumenten untermauert. Diese gilt es zu überprüfen. Außerdem muss zwingend untersucht werden, ob Deepfakes auch Eigenschaften haben, die sie von herkömmlichen Videomanipulationstechniken unterscheiden.
Zunächst geht Rini auf die psychologische Komponente ein: Durch den zeitlichen Faktor seien Videos einnehmender und fühlen sich echter an als Fotos. Dem ist nicht zu widersprechen, einzig auf den obigen Abschnitt kann man verweisen: Es gibt starke Hinweise dafür, dass wir bisher ein zu hohes Vertrauen in Aufnahmen gesteckt haben.
Als zweites könne man nun mithilfe von Deepfakes innerhalb von kurzer Zeit und mit wenig Aufwand gefälschte Videos herstellen, um bei epistemischen Herausforderungen unwahre Beweise vorlegen zu können. Als Beispiel nennt Rini eine Situation aus einer Wahlkampfveranstaltung, als es um die Frage ging, ob ein Reporter am Arm gepackt worden war, um vom Fragen abgehalten zu werden. Gegen dieses Argument spricht jedoch, dass Deepfakes sowohl eine große Rechenleistung als auch eine große Datenmenge zum Training benötigen. Gerade das von Rini gewählte Beispiel ist unpassend, da dies eine sehr außergewöhnliche Situation ist, zu der es keinerlei passendes Trainingsmaterial und auch keine vortrainierten GAN-Modelle gibt14.
Darüber hinaus wird von Rini festgestellt, dass Deepfakes eine zu textlichen „Fake News" ähnliche Massenproduktion von gefälschten Videos erlaube. Jedoch sprechen zum einen die oben genannten Probleme der benötigten Rechenleistung und Trainingsdaten dagegen15. Zum anderen reichen in den meisten Fällen sogenannte Cheapfakes oder Shallowfakes aus, um die vom Fälscher gewollte Konfusion zu erreichen, denn oft reicht ein leicht verändertes, gekürztes, oder im falschen Kontext benutztes Video16. Diese Thematik wird später detaillierter behandelt.
Als letztes Argument für eine Sonderstellung von Deepfakes im Vergleich zur Fotomanipulation erklärt Rini, dass man bei potentiell gefälschten Fotos immer noch auf Videos aus epistemischen Auffangmechanismus zurückgreifen könne. Ein solcher Auffangmechanismus sei mit der Einführung von Deepfakes nicht mehr vorhanden. Dieser Feststellung ist nicht zu widersprechen, denn eine über Videos hinausgehende Informationsquelle steht uns nicht zur Verfügung. Allerdings sollte man festhalten, dass nur die wenigsten politisch Interessierten sich wegen eines einzigen gefälschten Videos von einer anderen Meinung überzeugen lassen17.
Was bei Rini kaum angesprochen wird, ist die Tatsache, dass Deepfakes fast keine Neuerungen im Vergleich zur herkömmlichen Videomanipulation aufweisen. Tatsächlich ist keine der von Rini genannten Beispielsituationen auf Deepfakes angewiesen, denn stets könnte man auch mit traditionellen Methoden Konfusion erzeugen oder damit die Echtheit von authentischen Videos bezweifeln18. Sicherlich braucht man mit Deepfakes weniger Expertenwissen, wenn man beispielsweise Aussagen aus einer Pressekonferenz verfälschen möchte19. Wie aber später gezeigt wird, ist bei solchen Situationen ein Cheapfake, also etwa eine aus dem Kontext gerissene Aussage, oft mehr als ausreichend. Eine offensichtliche Fälschung mittels Deepfakes wäre durch andere Videomitschnitte -- gerade im Zeitalter der Smartphones -- deutlich eher als Fake zu enttarnen, was den Urheber des gefälschten Videos als Quelle direkt diskreditieren würde, als wenn nur ein verkürztes und somit irreführendes Video produziert werden würde. Als Kompromiss zu Rinis Standpunkt kann man vorschlagen, dass -- wie bereits angesprochen -- mit Deepfakes nun ein Schlagwort entstanden ist, das wie „photoshoppen" bei Fotobearbeitung synonym für alle Formen der Videomanipulation unabhängig von der dahinter liegenden Technologie benutzt werden könnte.
Deepfakes werden in Zukunft zur Manipulation des öffentlichen Diskurses benutzt
Rini geht davon aus, dass Deepfakes in den kommenden Jahren von „böswilligen Aktueren" zur Manipulation des öffentlichen Diskurses benutzt werden würde20. Um diese Behauptung zu überprüfen, muss man sich zunächst die Mechanismen von Desinformation vergegenwärtigen21. Laut Kurz und Rieger meint man damit „die strategische Beeinflussung der Weltsicht des Gegners durch eine geschickte Mischung aus Lügen, Halbwahrheiten und selektiver Hervorhebung von tatsächlichen Geschehnissen". Kernelement sei stets die Auswahl, Präsentation und Priorisierung von Nachrichten. Kurz und Rieger merken richtigerweise an, dass jedes Medium, das massenhaft verfügbar wurde, „umgehend für Zwecke der Beeinflussung" benutzt wurde. Daraus kann man folgern, dass Deepfakes keineswegs ein neues Phänomen sind, schließlich sind irreführende Videomanipulationen nichts Neues. Sie sind lediglich ein neues Werkzeug für „böswillige Akteure". Sicherlich kann man Rinis These daher als leicht alarmistisch betrachten, da sie zudem fast ausschließlich auf den US-amerikanischen Kontext eingeht. Laut einer Bertelsmann Studie gibt es dort eine immer stärkere Polarisierung22, was mit einem Vertrauensverlust in Institutionen wie Wissenschaft, Wirtschaft, Politik und vor allem Medien einhergeht. Die Auswirkungen von Desinformation (was Deepfakes als eines von vielen Mitteln benutzen kann) sind daher nicht direkt auf andere Länder wie die Schweiz oder Deutschland übertragbar.
Während den Recherchen für diesen Essay verbreitete sich auf Twitter ein Video, das sich alleine aufgrund des Inhalts, aber auch wegen der schlechten Qualität als Fälschung herausstellte. Im Video, das mittlerweile fast zwei Millionen Aufrufe hat, ist Bernie Sanders zu sehen, der sagt: „Any female born after 1993 can't cook. All they know is McDonald's, charge [their] phone, twerk, be bisexual, eat hot chip and lie."23 Neben der Tatsache, dass Bernie Sanders wohl nie einen solchen Satz sagen würde, weist auch das mit dem Ton asynchrone Video auf eine offensichtliche Fälschung hin24. Allerdings wirkt die Stimme täuschend echt wie die von Sanders. In den Antworten zum Tweet gibt es zwei wiederkehrende Themen. Einerseits wird über die zugrundeliegende Technik debattiert, also ob ein Stimmenimitator oder Methoden des Machine Learning verwendet wurden25. Andererseits wird dennoch über den Inhalt des Tweets diskutiert. Dieses Ereignis zeigt, dass ein geschickt erstellter Cheapfake26 völlig ausreicht, um für Konfusion zu sorgen. Laut dem IT-Sicherheitsexperten Thaddeus T. Grugq, der unter anderem zu den Themen Desinformation und Cybersicherheit beispielsweise in der New York Times oder Washington Post zitiert wurde und auch auf namhaften Sicherheitskonferenzen vorgetragen hat, argumentiert ebenfalls, dass Deepfakes keinerlei Vorteile gegenüber Cheapfakes besitzen27.
Das Wissen über Deepfakes ist schlimmer als Videos die per Deepfake bearbeitet werden
Rinis vermutlich eindrucksvollste28 These lautet, dass in der Gegenwart von Deepfakes sowie durch die wachsende öffentliche Aufmerksamkeit der epistemische Auffangmechanismus massiv gestört werden würde. Das bedrohe vor allem die passiv regulierende Funktion von Aufnahmen, weil beispielsweise Politiker sich weniger zur Ehrlichkeit verpflichtet fühlen könnten, da man jederzeit bei einem aufkommenden Skandal mit der Begründung, alle Aufnahmen seien Deepfakes, die Vorwürfe abstreiten könne.
Auch bei diesem Thema lohnt sich ein Blick zu Kurz und Rieger: In ihrem Buch „Cyberwar" zeigen sie im Kapitel „Desinformation und Einflussoperationen" unter der Zwischenüberschrift „Postmodernismus als Waffe"29 einige interessante Mechanismen, die unter anderem in Trumps Wahlkampf eingesetzt wurden30. Ein zentrales Element war nämlich die Diskreditierung des politischen Gegners, der nicht nur in Hillary Clinton, sondern auch in liberalen Medien gesehen wurde. Auch hieraus kann man folgern, dass es nicht Deepfakes braucht, um die öffentliche Wahrnehmung über bestimmte Medienhäuser herabzusetzen31.
Wenn man sich allerdings an die Debatte um Varoufakis' Mittelfinger erinnert, fällt auf, dass damals -- noch bevor Deepfakes einige Jahre später öffentlich wurden -- bereits von Videomanipulation die Rede war. Dass dies auch technisch schon möglich war zeigt der „gefälschte Fake" von Jan Böhmermann32. Wie bereits schon erwähnt kann man Deepfakes nun als Schlagwort begreifen, mit der jedwede Art von Videobearbeitung gemeint ist, da außer der zugrundeliegenden Technologie nur marginale Unterschiede zu herkömmlichen Methoden bestehen. Der neuartige Begriff könnte eine ähnliche Stellung wie „Fake News" oder „Filterblase" erhalten, mit denen in der Öffentlichkeit komplexe Zusammenhänge auf ein Wort reduziert werden, ohne dass die Mechanismen verstanden wurden. Das Beispiel „Filterblase" zeigt, dass sich sogar ein nicht nachzuweisendes Phänomen aufgrund des griffigen Ausdrucks durchgesetzt hat33.
Fazit: Ein bereits bekanntes Phänomen unter reißerischem Namen
Sowohl Audio- als auch Videoaufnahmen haben eine außergewöhnliche Stellung im öffentlichen Diskurs. Oft werden sie -- aus meiner Sicht zu unrecht -- unhinterfragt als wahr angenommen. Der „VarouFake" zeigt die Probleme in zweierlei Hinsicht: Einerseits wurde das Original aus dem Kontext gerissen und somit sinnentstellend benutzt. Andererseits zeigt anschließende Diskussion um den „gefälschten Fake" von Böhmermann, dass Manipulationen von Videos nicht erst seit Deepfakes möglich sind. Das zeigt, dass wir möglicherweise zu stark auf Aufnahmen vertraut haben.
Obwohl Rini gute Argumente für den Unterschied zwischen Fotomanipulation und Deepfakes darlegt, deuten viele Hinweise darauf, dass Deepfakes keine neuartige Innovation im Bereich Desinformation sind. Oft reichen sogenannte Cheapfakes oder Shallowfakes um für Konfusion beim Rezipienten zu sorgen, was heutzutage oft das Ziel solcher Strategien ist. Deepfakes können zwar einer „Fake News" mehr Authentizität verleihen, aber die Wirksamkeit hängt auch maßgeblich davon ab, ob sie auf einen fruchtbaren Boden treffen, beispielsweise auf ein Land mit starker Polarisierung.
Abschließend kann man noch auf Bereiche hinweisen, in denen Deepfakes wahrscheinlicher zu einer Herausforderung werden können als im öffentlichen Diskurs. Das betrifft neben Social Engineering34 und Pornofilmen von Privatpersonen auch Lokalpolitiker, die zu wenig Medienaufmerksamkeit erfahren werden, um Anschuldigungen auszuräumen.
Samantha Cole, Motherboard/Vice, 2017-12-11, https://www.vice.com/en_us/article/gydydm/gal-gadot-fake-ai-porn (abgerufen am 2020-01-18)
Die von Goodfellow et al. (https://arxiv.org/abs/1406.2661) im Jahr 2014 eingeführten Generative Adversarial Networks (GAN) gehören in der Tat zu den spannendsten Innovationen im Bereich Machine Learning der letzten 20 Jahre. Die meisten Erkenntnisse und Grundlagen des Machine Learning wurden bereits in der Mitte des 20. Jahrhunderts veröffentlicht. Der große Hype des Machine Learing in den letzten Jahren ist dabei vor allem auf Fortschritte in dessen praktische Anwendung in der Industrie und Wissenschaft zurückzuführen, welche wiederum auf der gesteigerten Rechenleistung durch bessere Prozessoren basiert, da diese erstmals die großen Datenmengen effektiv mit den bereits bekannten Methoden bearbeiten können. GANs hingegen stellen einen Paradigmenwechsel dar: nicht nur Klassifizierungs- und Regressionsaufgaben können mithilfe von Machine Learning gelöst werden, sondern auch generative Aufgaben.
Rini, Juni 2019, Deepfakes and the Epistemic Backstop, S.2
Reuters, 2019-11-29, https://www.reuters.com/article/us-china-technology/china-seeks-to-root-out-fake-news-and-deepfakes-with-new-online-content-rules-idUSKBN1Y30VU (abgerufen am 2020-01-18)
Assembly Bill No. 730 California, https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=201920200AB730 (abgerufen am 2020-01-18)
Rini, Juni 2019, Deepfakes and the Epistemic Backstop, S.26
Obwohl in der öffentlichen Wahrnehmung der Fokus klar auf Videoaufnahmen liegt, sollte andere Formen von Aufnahmen jedoch nicht vergessen werden. Rinis Text bezieht sich nicht nur auf Videobearbeitung mithilfe von Machine Learning Methoden, sondern auch auf Audioaufnahmen. Da die überwiegende Mehrheit der Argumente auch auf Audioaufnahmen zutrifft, wird in diesem Essay mit dem Begriff Aufnahmen sowohl Audioaufnahmen als auch Videoaufnahmen gemeint.
Tatsächlich wurden die Videos auf Echtheit überprüft, z.B. https://www.sueddeutsche.de/politik/strache-video-echtheit-1.4503178. Dass die Überprüfung auf Deepfakes eine große Herausforderung darstellen wird, ist bereits in vielen Texten zum vorliegenden Thema aufgegriffen worden. Allerdings würde diese Debatte den Rahmen dieses Essays sprengen, daher sei hier u.a. auf den Abschnitt in Rinis Text verwiesen.
Rini, Juni 2019, Deepfakes and the Epistemic Backstop, S.16
Wichtig an dieser Stelle ist, dass hier explizit nicht das gefälschte Video von Jan Böhmermann gemeint ist, sondern alleine das Originalvideo noch bevor Böhmermann seine Version veröffentlichte. Dieser Spiegel-Artikel behandelt den Stand der Dinge zwischen der Diskussion bei Günther Jauch und bevor Böhmermanns Video veröffentlicht wurde: https://www.spiegel.de/politik/ausland/griechenland-das-sagte-varoufakis-in-der-stinkefinger-rede-a-1023977.html. Aus der Zusammenfassung: „Die umstrittene Rede von Griechenlands Finanzminister Giannis Varoufakis wurde bei Günther Jauch aus dem Kontext gerissen - Varoufakis sprach darin im Mai 2013 über die Situation Griechenlands vor fünf Jahren. Im Kontext sagt er, dass es 2013 gerade keine Option sei, Deutschland den Stinkefinger zu zeigen."
Der „Varoufake" von Böhmermann und dessen Folgen werden weiter unten besprochen.
https://www.washingtonpost.com/graphics/politics/trump-claims-database/ (Stand: 2020-01-19)
In diesen Fall kann man davon ausgehen, dass eine Manipulation mittels herkömmlicher Videobearbeitung aus der Sicht eines Fälscher vorzuziehen ist, auch wenn man in kurzer Zeit sicherlich kein perfektes Resultat erzielen würde. Man muss an dieser Stelle auch zwischen Privatpersonen und beispielsweise Geheimdiensten unterscheiden, die im Bereich Desinformation deutlich mehr Kapazitäten zur Verfügung haben. Das wird zu einem späteren Zeitpunkt in diesem Essay ausführlicher behandelt. Ebenfalls später behandelt wird das Thema Cheapfakes, mit deren Hilfe man auch hier für Konfusion sorgen könnte. Darüber hinaus kann man festhalten, dass Rinis Argument, alleine der Begriff Deepfakes könnte in einer solchen Situation für Beschuldigte reichen, um erfolgreich die Vorwürfe zurück zu weisen, sicherlich stimmt. Allerdings gab es, wie bereits bei Varoufakis' Mittelfinger, schon damals die Möglichkeit, von Videomanipulation zu sprechen. Die einzig neue Komponente ist, dass falls sich Deepfakes im Sprachgebrauch durchsetzt, ein allgemein verständliches Schlagwort benutzt wird, das eventuell synonym zu jedweder Videobearbeitung steht, ähnlich wie „photoshoppen" im Bereich der Bildbearbeitung.
Das ist natürlich vom eingesetzten Kontext abhängig, denn eine einfache Montage von Gesichtern ist mit vortrainierten Modellen sicherlich einfacher von Laien zu realisieren als eine außergewöhnliche Situation wie die von Rini genannte Szene mit dem Arm des Reporters aus der Wahlkampfveranstaltung.
Beispielweise kann man hier die oben dargelegte Kontroverse um Varoufakis' Mittelfinger oder das leicht verlangsamte Video von Nancy Pelosi nennen, um diese als Betrunken darzustellen, siehe https://www.washingtonpost.com/technology/2019/05/23/faked-pelosi-videos-slowed-make-her-appear-drunk-spread-across-social-media/
Einzig Deepfakes als wesentlich für die Meinungsbildung zu betrachten wäre zu vereinfacht. Videos sind in ein sehr heterogenes Medien- und Politiksystem eingebettet. Darüber hinaus hat man in Studien festgestellt, dass zumindest in Deutschland noch sehr stark auf Institutionen wie dem öffentlich-rechtlichen Rundfunk, die sich über Jahrzehnte Glaubwürdigkeit erarbeitet haben, vertraut wird und kaum auf soziale Medien, in denen Deepfakes natürlich eher zu sehen sein werden. Siehe u.a. https://www.pwc.de/de/technologie-medien-und-telekommunikation/studie-vertrauen-in-medien.html
Die von Rini aufgeführten Beispielsituationen sind: Cohen, Nixon, Fukuda, Zapruder/Kennedy, Comey, Merkel/Obama, Flämische Sozialistische Arbeiterpartei, Russischer Gouverneur, Bush, Ureinwohnerin/Teenager, Lewandowski.
Das Austauschen von Gesichtern wurde bereits von vielen Apps implementiert. Gerade gut ausgeleuchtete Pressekonferenzen in einer standardisierten Umgebung sollten daher vergleichsweise wenig Aufwand bedeuten.
Rini, Juni 2019, Deepfakes and the Epistemic Backstop, S.1
Der neuere Begriff „Fake News" ist laut Dr. Constanze Kurz und Frank Rieger (u.a. sind beide Sprecher des Chaos Computer Clubs und waren schon einige Male als Sachverständige in diversen Ausschüssen des deutschen Bundestages und des Bundesverfassungsgerichtes zu Gast) zu eindimensional um die komplexe Wirkungsweise von Wahrnehmungsmanipulation zu beschreiben. Der Begriff „Desinformation", der vom russischen „Desinformazia", dem Namen einer Abteilung des ehemaligen sowjetischen Geheimdienstes KGB, stammt, sei umfassender. Siehe Kurz, Rieger: „Cyberwar - Die Gefahr aus dem Netz: Wer uns bedroht und wie wir uns wehren können", S.204, 1. Auflage, 2018, C. Bertelsmann Verlag, München
Das Video wurde offenbar schon einen Monat vorher auf Reddit veröffentlicht, wo es allerdings keine große Aufmerksamkeit erreicht hatte. Die Aussage selbst geht auf einen viralen Tweet aus dem März 2019 zurück und es wurden laut der Urheberin schon Fälschungen mit Trump, Obama und Jesus erstellt. Siehe https://www.dailydot.com/layer8/bernie-sanders-women-hot-chip-lie-meme/. Im ursprünglichen Tweet heißt es noch „charge they phone" anstatt „charge their phone".
Der in der letzten Fußnote verlinkte Artikel geht auch von einem Stimmenimitator aus, während der anerkannte KI-Wissenschaftler (u.a. früher MIT) Joscha Bach per Hashtag andeutet, dass er von einem Deepfake ausgeht (https://twitter.com/Plinz/status/1220824701699854338). Auch viele andere Twitternutzer gehen unter dem Video von einem Deepfake aus. Ob Joscha Bach hier (wie in diesem Essay herausgearbeitet) Deepfake synonym zu anderen Formen der Videobearbeitung benutzt, ist allerdings unklar.
Da aufgrund der schlechten Qualität des Videos die Authentizität innerhalb von Sekunden angezweifelt werden, möchte ich hier nicht von einem Deefake sprechen, unabhängig von der beim Ton verwendeten Technik.
„I have always been skeptical of the utility of deepfakes for disinformation. They are simply unnecessary. They provide nothing that any threat actor cannot do already with normal media alteration. The history and implications of altered, decontextualised or miscontextualised media has been studied and excellent books are available on the subject." Siehe https://medium.com/@thegrugq/cheap-fakes-beat-deep-fakes-b1ac91e44837
Ich habe diese These als „eindrucksvollste" ausgewählt, da sie in nahezu allen neueren Artikeln zum Thema Deepfakes erwähnt wird. Zwar wird sie nicht Rini zugeschrieben, sondern meist Claire Wardle, wie beispielsweise in https://www.nytimes.com/2019/08/14/opinion/deepfakes-adele-disinformation.html oder https://www.zeit.de/digital/internet/2019-11/deepfakes-gefaelschte-videos-kuenstliche-intelligenz-manipulation/komplettansicht
Siehe Kurz, Rieger: „Cyberwar - Die Gefahr aus dem Netz: Wer uns bedroht und wie wir uns wehren können", S.206ff, 1. Auflage, 2018, C. Bertelsmann Verlag, München
Als zentralen Vordenker kann laut Kurz und Rieger der Putin-Berater Wladislaw Surkow gesehen werden, der die Strategie, mithilfe von ständiger Konfusion jegliche Opposition abzulenken, was zu Orientierungslosigkeit führt und schließlich ein autoritärer Kurs könne Ordnung, Struktur und Klarheit versprechen, erfand. Die Argumentation hier ist natürlich stark verkürzt, weshalb auf das Buch verwiesen wird.
Wie bereits erwähnt sind diese Phänomene nicht immer direkt auf andere Länder übertragbar sondern setzen eine starke Polarisierung der Gesellschaft voraus.
Siehe https://www.youtube.com/watch?v=Vx-1LQu6mAE. Auch interessant ist die falsche Stellungnahme Böhmermanns zum „gefälschten Fake", was die Konfusion der Medienberichterstattung auf eine neue Stufe hob, siehe https://www.youtube.com/watch?v=BRvfZmwwHF0.
In einem Twitter-Thread zeigt Christoph Kucklick (Leiter der Henri-Nannen-Schule für Journalisten) mithilfe von mehr als 20 Studien, dass „Filterblasen" nicht nachzuweisen sind und daher völlig überproportional in der öffentlichen Diskussion verwendet wird, siehe https://twitter.com/chkucklick/status/1216446392207577089. Ein kürzlich veröffentlichter Podcast des Deutschlandfunks geht auch auf dieses Thema ein, siehe https://www.deutschlandfunkkultur.de/breitband-sendungsueberblick-mythos-filterblase.1264.de.html?dram:article_id=468750
Damit wird im Kontext von Deepfakes in der Regel Finanzbetrug per Telefonanruf gemeint, wo mit dieser Technologie beispielsweise die Stimme des Geschäftsführers imitiert wird und so eine Zahlungen an den Angreifer autorisiert wird.