2020
SHORT PAPER

<Short  PAPER>



/ / Functionality of “Deep Fake” Video Manipulation Algorithms

Die vorliegende Arbeit wurde im Rahmen des Seminars
"Einführung in die Medien- und Kommunikationstheorie 2
(Bewegtbildwissenschaft- Film als ästhetische Praxis)"


bei: Prof. Dr. Lars C. Grabbe erstellt.

Muenster School of Design.

Schulze, Benno (2020)

/ Inhaltsverzeichnis

1.

2.
2.1
2.2
2.3
2.4
2.5

3.
3.1
3.2
3.3

4.
5.
Einleitung

Möglichkeiten der Manipulation von Videos
Definition "Deep Fake"
Face2Face Nachstellung
Lip Sync from Audio
Face Swap
Deep Video Portrait

Möglichkiten der Identifizierung Manipulierter Videos
Propandenstudien
Detektion mittels "machine learning"
Der "Uncanny Valley"

Fazit
Literatur-, Quellen- und Abbildungsverzeichnis

/ 1. Einleitung

Ein Thema, auf das ich – ironischerweise – durch den YouTube-Algorithmus aufmerksam wurde, steht im direkten Zusammenhang mit meiner grundlegend skeptischen Haltung gegenüber der Manipulation durch und mit Medien: sogenannte „Deep Fake“-Videos. Das erste Video, das ich bewusst als Deep Fake identifizierte, war eine bearbeitete Version der ikonischen „Here’s Johnny“-Szene aus dem Film The Shining. In dieser wurde das Gesicht von Jack Nicholson mithilfe algorithmischer Bildmanipulationstechniken durch das von Jim Carrey ersetzt.

Die Kombination aus „Johnny“, Jack und Jim – drei Namen, die jeweils für beeindruckende Schauspielkarrieren stehen – verlieh dem Video einen besonderen Reiz. Besonders bemerkenswert fand ich jedoch einige Kommentare unter dem Video, in denen Nutzer:innen, offenbar ohne Kenntnis der Manipulation, die schauspielerische Leistung Jim Carreys in dieser Szene lobten – und das Video somit für authentisch hielten.

Ob diese Kommentare nun real oder inszeniert waren, lässt sich im Nachhinein schwer sagen. Fest steht jedoch: In meinem persönlichen Umfeld war das Phänomen der KI-gestützten Bild- und Videomanipulation weitgehend unbekannt. Dieses allgemeine Unwissen – sowohl bei mir selbst als auch bei anderen – hat mein Interesse an der Thematik weiter verstärkt. Es motivierte mich dazu, mich intensiver mit der Funktionsweise und den medientheoretischen Implikationen von Deep Fake-Technologien auseinanderzusetzen.

/ 2. Möglichkeiten der Manipulation von Videos

/ 2.1 Definition "Deep Fake"

Der Begriff Deep Fake beschreibt die möglichst fotorealistische Manipulation von Ton-, Bild- und Videomaterialien mithilfe automatisierter, auf Deep Learning basierender Algorithmen. Ziel ist die Erzeugung von Szenarien, Aussagen oder Handlungen, die in der dargestellten Form nie stattgefunden haben. Sam Gregory fasst diese neue Form der digitalen Manipulation unter dem Begriff Synthetic Media zusammen (vgl. Bovenschulte 2019: 1).

Um die Funktionsweise dieser Technologien nachvollziehbar darzustellen, ist eine präzise Begriffsdefinition von zentraler Bedeutung. Andernfalls droht – ähnlich wie beim Begriff Fake News – eine inhaltliche Verwässerung durch inflationäre und unspezifische Nutzung (vgl. Vincent 2018). Angesichts der rasanten technologischen Entwicklung muss jedoch auch betont werden, dass jede Definition notwendigerweise temporär ist und regelmäßig an neue technische Gegebenheiten angepasst werden muss (vgl. Patrini 2018).

Deep Fakes sind dabei nicht klar von anderen Formen der digitalen Manipulation abzugrenzen, sondern stellen vielmehr eine spezialisierte Unterkategorie innerhalb des übergeordneten Phänomens Fake Video dar. Die Bezeichnung leitet sich vom Einsatz sogenannter Deep Learning-Technologien ab, welche die Erstellung manipulierter Inhalte automatisieren und damit erheblich vereinfachen (vgl. Brundage in Vincent 2018). Ohne diese automatisierten Verfahren wäre der Erstellungsprozess derart aufwendig und ressourcenintensiv, dass eine manuelle Umsetzung – etwa durch Frame-by-Frame-Bearbeitung – wirtschaftlich kaum tragbar wäre (vgl. Ovadya in Vincent 2018).

Zur Veranschaulichung: Ein lediglich 20 Sekunden langer Videoclip in filmüblicher Bildfrequenz von 24 Frames pro Sekunde umfasst bereits 480 Einzelbilder, die bearbeitet werden müssten (vgl. Bovenschulte 2019: 2). Auch klassische Softwarelösungen wie Adobe Photoshop oder After Effects können in der Nachbearbeitung eine Rolle spielen – insbesondere, da große Softwareunternehmen wie Adobe zunehmend KI-gestützte Funktionen in ihre Anwendungen integrieren.

Um dem thematischen Spektrum die nötige begriffliche Schärfe zu verleihen, sollte zusätzlich die durch mediale Diskurse geprägte, überwiegend negative Konnotation des Begriffs Deep Fake berücksichtigt werden. In der öffentlichen Wahrnehmung ist der Begriff oftmals mit politischer Manipulation, Desinformationskampagnen oder gefälschten Beweismitteln assoziiert – kurzum: mit gezielter Täuschung (vgl. Vincent 2018).Diese einseitige Rezeption hat sich im gesellschaftlichen Diskurs tief verankert und führt häufig dazu, dass das Potenzial der Technologie – etwa im künstlerischen oder bildungsorientierten Kontext – ausgeblendet wird. Auch Sängerlaub verweist in seiner Auseinandersetzung mit digitalen Desinformationsstrategien auf diese dominante, negativ konnotierte Definition von Deep Fakes als Instrument der Manipulation.

„Deepfakes […], sind eng mit dem Konzept von Fake News verbunden […] und stellen insoweit eine neue Variante der Verbreitung von falschen oder irreführenden Informationen mit der Absicht, einer Person, einer Organisation oder einer Institution zu schaden, dar.“ (Sängerlaub in Bovenschulte: 2019: S. 1)

Der Begriff Deep Fake wurde 2017 erstmals durch den Reddit-Nutzer „deepfakes“ in die öffentliche Wahrnehmung eingeführt. Zwar existierten die technischen Grundlagen der Bild- und Videomanipulation bereits zuvor, jedoch war es dieser Nutzer, der die Technologie einem breiteren Publikum zugänglich machte und so maßgeblich zur Popularisierung beitrug (vgl. Oberoi in Schade 2019: 95).

Der Terminus Deep Fake setzt sich aus den Begriffen Deep – eine Anspielung auf Deep Learning – und Fake im Sinne von Fake News zusammen. Bei Deep Learning handelt es sich um eine besonders leistungsfähige Form des maschinellen Lernens, die auf künstlichen neuronalen Netzwerken basiert. Diese orientieren sich in ihrer Struktur am menschlichen Gehirn und bestehen mittlerweile aus bis zu 50 Schichten (Layern) künstlicher Neuronen, von denen jede einzelne spezifische Merkmale des Bild- oder Videomaterials analysiert (vgl. Dhuruv in Schade 2019: 96).

Die Analyse erfolgt dabei hierarchisch: Während die ersten Ebenen beispielsweise einfache visuelle Merkmale wie Kanten erkennen, identifizieren die tieferliegenden Schichten komplexere Strukturen wie Gesichtsmerkmale – etwa Nase, Augen oder Ohren (vgl. Zucconi 2018a). Der wesentliche Unterschied zum klassischen Machine Learning besteht darin, dass Deep Learning-Modelle ihre Entscheidungsprozesse weitgehend autonom entwickeln. Der menschliche Einfluss beschränkt sich in der Regel auf das Bereitstellen und Annotieren von Trainingsdaten sowie die Beobachtung und Dokumentation der Ergebnisse (vgl. Luber 2017). Wie es der Technologiejournalist Will Knight formuliert:

Deep learning means that machines can increasingly teach themselves how to perform complex tasks that only a couple of years ago were thought to require the unique intelligence of humans.” (Knight 2016)

Je nach Intention der Erzeuger:innen lassen sich verschiedene Formen der audiovisuellen Manipulation durch Deep Fakes unterscheiden (vgl. Sängerlaub in Bovenschulte 2019: 1):

Offensichtliche Manipulation:
meist satirisch konnotiert, jedoch mitunter auch diffamierend oder aggressiv inszeniert.

Schneiden, De- und Rekontextualisieren:
Hierbei wird durch selektive Montage der ursprüngliche Aussagekontext verändert oder verfälscht, was eine gezielte Bedeutungsverschiebung zur Folge haben kann.

Digitale Retusche und Nachbearbeitung:
Hierbei werden Personen, Objekte oder Szenerien entfernt, ersetzt oder künstlich eingefügt.

/ 2.2 Face2Face Nachstellung

Face2Face, erstmals 2016 der Öffentlichkeit präsentiert, gilt als eines der ersten Verfahren zur videobasierten Gesichtsmanipulation in Echtzeit, das reale Personen involviert und ausschließlich auf RGB-Videomaterial als Quelle zurückgreift. Auch wenn Face2Face streng genommen nicht auf Deep Learning-Verfahren basiert, ist es dennoch ein Meilenstein in der Entwicklung manipulativer Videotechnologien und markiert einen frühen Vorläufer potenziell missbräuchlicher Anwendungen, wie sie später im Kontext von Deep Fakes zunehmend diskutiert wurden (vgl. Thies et al. 2016: 1).

Der technologische Ansatz von Face2Face besteht darin, die Mimik einer sogenannten Source Person auf das Gesicht einer Target Person zu übertragen. Als Target dient dabei ein beliebiges RGB-Video, in dem das Gesicht der abgebildeten Person frontal zur Kamera ausgerichtet ist. Die Source kann entweder eine Live-Aufnahme oder ein vorab aufgezeichnetes Video einer anderen frontal aufgenommenen Person sein.

Beide Videoströme werden über ein Verfahren der automatisierten Gesichtsrekonstruktion analysiert, welches auf einem sogenannten photometric consistency measure basiert (vgl. Thies et al. 2016: 1). Dabei wird aus den einzelnen Frames eine 3D-Rekonstruktion des jeweiligen Gesichts erstellt, die hinsichtlich dreier zentraler Parameter ausgewertet wird: Pose (Kopfposition), Illumination (Lichtverhältnisse) und Expression (Gesichtsausdruck) (vgl. Thies et al. 2016: 3; vgl. Furukawa 2016).

Durch diese strukturierte Analyse gelingt es dem System, die Gesichtsausdrücke der Source Person in Echtzeit auf das Zielgesicht zu übertragen – eine Technik, die trotz ihres Fehlens tiefenlernender Komponenten ein hohes Maß an visueller Überzeugungskraft besitzt und bereits früh das gesellschaftliche Missbrauchspotenzial solcher Verfahren aufzeigte.

Abbildung 1:
Comparison Source + Target

Im nächsten Schritt wird für jeden einzelnen Frame der Source-Aufnahme ein entsprechender Frame aus dem Target-Material identifiziert, der eine möglichst identische Mundstellung aufweist (vgl. Thies et al. 2016: 1–5; vgl. Abb. 2). Die Bewegung der Gesichtsmuskulatur wird dabei über ein sogenanntes Deformation Transfer-Verfahren zwischen den Frames interpoliert, indem jeweils der vorherige und der nachfolgende Frame in die Berechnung einbezogen werden. Dies führt zu einer organischen, flüssigen Übertragung der Mimik.

Das so generierte Bildmaterial wird anschließend in das Target-Video eingebettet und dort gerendert. Bemerkenswert ist hierbei, dass das finale Output Video keine externen oder künstlich erzeugten Bilddaten enthält. Stattdessen basiert die Animation der Mundpartie ausschließlich auf den vorhandenen Gesichtsmerkmalen der im Target-Video gezeigten Person. Dadurch wird eine nahezu fotorealistische Darstellung erreicht, die für Betrachter:innen kaum als manipuliert zu erkennen ist.

Abbildung 2:
Mouth Database
Abbildung 3:
„Beispielanwendungen mit “Input” sowie „Reenectment“ Frames“

Der primäre Anwendungsbereich von Face2Face liegt insbesondere im digitalen Kommunikationskontext, da die Technologie aufgrund ihrer Echtzeitfähigkeit prädestiniert für den Einsatz in Online-Umgebungen ist. Potenzielle Einsatzfelder umfassen unter anderem Virtual- und Augmented-Reality-Anwendungen, videobasierte Kommunikation wie etwa Videotelefonie (z. B. über Skype) sowie die automatisierte Synchronisation und Übersetzung von Filmen und Serien durch lippensynchrone Anpassung der Mimik (vgl. Thies et al. 2016: 7).

/ 2.3 Lip Sync from Audio

Eine auf Face2Face aufbauende Weiterentwicklung wurde erstmals im August 2017 auf der SIGGRAPH-Konferenz*1  vorgestellt (vgl. Langston 2017). Auch diese Methode analysiert jedes einzelne Frame des Videomaterials, geht jedoch einen entscheidenden Schritt weiter: Anstatt die Mundbewegungen aus existierendem Videomaterial zu extrahieren, werden sie direkt aus einer Audioquelle synthetisiert (vgl. Suwajanakorn et al. 2017: 1–3).

Im zugrundeliegenden Forschungsprojekt demonstrieren Suwajanakorn et al. die Funktionsweise eines auf Long Short-Term Memory (LSTM)*² basierenden neuronalen Netzwerks anhand einer Rede von Barack Obama. Der Algorithmus wurde mit rund 17 Stunden Videomaterial – bestehend aus nahezu zwei Millionen Einzelbildern – trainiert, um die beim Sprechen besonders relevanten Gesichtsregionen (insbesondere Lippen, Wangen und Kinn) präzise zu modellieren und anschließend zu synthetisieren.

Die übrigen Bildbereiche – wie Augen, Kopfbewegungen, Torso sowie der Hintergrund – stammen aus einem statischen Target-Video und bleiben weitgehend unverändert. Besondere Beachtung erfährt dabei die Kopfhaltung, die im Fall Obamas während Pausen oder bei ausbleibender Mimik (z. B. ohne Augenbrauenbewegung) typischerweise stabil bleibt. Diese charakteristische Ruhe wird beim finalen Blending-Prozess durch ein sogenanntes Re-Timing des Target-Materials berücksichtigt, um eine möglichst natürliche und glaubwürdige Darstellung zu gewährleisten (vgl. Suwajanakorn et al. 2017: 1–3, 7).

*1 SIGGRAPH (Special Interest Group in Graphics and Interactive Techniques) ist eine jährlich stattfindende Konferenz über Hardware, Software und Service der IT Industrie (vgl. o.A., ACM SIGGRAPH (Herausg.): o.J.)
*² Ein Funktionsblock rekurrenter neuronaler Netze (KI), welcher mittels „Kurzzeitgedächtnis wesentlich leistungsfähiger sind und somit nicht nur einzelne Fragmente (wie Frames) sondern auch ganze Datensequenzen wie Audio analysieren kann. (vgl. o.A., Wikipedia (Herausg.): 2020)

Abbildung 4:
Gesamtprozess

Für das sogenannte Re-Timing gelten bestimmte Restriktionen: So darf ein Target-Frame bei Bedarf wiederholt, jedoch niemals übersprungen werden. Dadurch ist es technisch lediglich möglich, das Ausgangsmaterial zu verlangsamen – eine Beschleunigung des Videos ist hingegen ausgeschlossen. Um die Glaubwürdigkeit der Synthese zu wahren, werden Sequenzen mit spontanem Blinzeln oder schnellen mimischen Veränderungen nach Möglichkeit vermieden (vgl. Suwajanakorn et al. 2017: 7–8).

Nachdem der Algorithmus auf Grundlage der Source-Audio für jede Lautform eine entsprechende Gesichtstextur der unteren Gesichtshälfte generiert hat, wird diese mithilfe eines Blending-Verfahrens nahtlos unterhalb der Augenpartie in das Target-Video integriert. Zur finalen Feinabstimmung sowie zur Eliminierung möglicher visueller Artefakte – insbesondere im Bereich des Kinns – kommt abschließend ein sogenannter Jaw Correction-Algorithmus zum Einsatz. Dieser dient dazu, die Übergänge zwischen synthetisierter Mundpartie und originalem Target-Material zu optimieren und ein möglichst konsistentes, fotorealistisches Erscheinungsbild sicherzustellen (vgl. Suwajanakorn et al. 2017: 7–8).

Abbildung 5:
"Jaw Correction"

Im Vergleich zum Face2Face-Ansatz von Thies et al. wirken die Ergebnisse des Verfahrens von Suwajanakorn et al. weniger immersiv. Dies liegt primär an der fehlenden emotionalen Feinabstimmung (vgl. Schade 2019: 98), insbesondere im Bereich der oberen Gesichtshälfte – etwa beim Heben und Senken der Augenbrauen oder beim Stirnrunzeln. Diese Elemente stammen unverändert aus dem ursprünglichen Target-Material und werden im Rahmen der algorithmischen Synthese nicht neu angepasst (vgl. Suwajanakorn et al. 2017: 2).

Dabei ist zu beachten, dass beide Ansätze unterschiedliche Zielsetzungen verfolgen und dementsprechend auf verschiedene Anwendungsfelder ausgelegt sind. Der hier beschriebene Algorithmus von Suwajanakorn et al. eröffnet insbesondere im informationsvermittelnden Bereich neue Möglichkeiten. So könnte beispielsweise rein auditiv vorliegendes Material – etwa bei Nachrichtenagenturen oder Geheimdiensten – künftig durch automatisierte visuelle Repräsentationen ergänzt werden. Auch ein vollständig synthetischer Nachrichtenmoderator wäre denkbar, bei dem lediglich eine Audiospur (Source) und entsprechendes Target-Videomaterial benötigt wird. In Kombination mit Stimmensyntheseverfahren – wie etwa „Lyrebird“ (vgl. Bovenschulte 2019: 1) – ließe sich die Art und Weise, wie Nachrichten generiert, verbreitet und rezipiert werden, grundlegend transformieren.-Materials berücksichtigt, um eine möglichst natürliche und glaubwürdige Darstellung zu gewährleisten (vgl. Suwajanakorn et al. 2017: 1–3, 7).

Abbildung 6:
a) "Face2Face" b) "LipSync"
Unterstützendes Videomaterial zum Algorithmus findet sich unter (Suwajanakorn, 2017 [Video])

/ 2.4 Face Swap

Der erste dokumentierte Ansatz, nicht nur mimische Bewegungen inklusive emotionaler Ausdrucksformen, sondern vollständige Gesichtspartien sowie charakteristische Merkmale von Person A auf Person B zu übertragen, wurde erstmals Ende 2017 öffentlich wahrgenommen (vgl. Schade 2017: 99). Bekanntheit erlangte dieser sogenannte „Face Swap“-Ansatz durch die Manipulation pornographischer Inhalte, in denen prominente Frauen digital in explizite Szenen eingefügt wurden. Die dabei erzielte Qualität ließ den manipulierten Ursprung der Videos für Laien kaum erkennbar erscheinen (vgl. Bovenschulte 2019: 1–2).

Zur Anwendung kamen dabei Deep Learning Encoder, die ursprünglich zur effizienten Videokompression entwickelt wurden, in diesem Fall jedoch zweckentfremdet zur Gesichtssynthese eingesetzt wurden (vgl. Schade 2017: 99). Es ist anzumerken, dass ein vergleichbarer technischer Ansatz bereits 2016 von Satya Mallick demonstriert wurde – zunächst anhand eines Fotos, theoretisch jedoch auch auf Videos übertragbar. In seinem Beispiel verschmolz Mallick die Gesichtsmerkmale von Donald Trump („some unknown primate with funny hair“), Hillary Clinton und Ted Cruz zu einem synthetischen Hybridgesicht.

Technisch basiert dieses Verfahren auf mehreren Schritten: Zunächst erfolgt ein Face Alignment, bei dem alle beteiligten Gesichter auf eine einheitliche Größe skaliert werden. Daraufhin werden prägnante landmarks identifiziert – wobei lediglich äußere Gesichtspunkte (z. B. Kiefer- und Gesichtsrand) für das Alignment berücksichtigt werden, während zentrale Partien wie Augen, Nase oder Mund unberücksichtigt bleiben. Ein zentraler Nachteil dieses Verfahrens liegt somit in der fehlenden mimischen Anpassung des übertragenen Gesichts. Schließlich wird durch ein Seamless Cloning, also eine Farb- und Lichtanpassung mit weichen Übergängen an den Rändern, das Quellgesicht (src) mithilfe einer Maske unauffällig auf das Zielgesicht (dst) projiziert (vgl. Mallick 2016; siehe Abb. 7).

Abbildung 7:
„Prozess von Satya Mallick´s Face Swap”

Mithilfe der Anwendungen FaceSwap und FakeApp lassen sich hingegen auch Videosequenzen manipulieren, in denen die Mimik dynamisch an die jeweilige Zielquelle (Target) angepasst wird (vgl. Zucconi 2018b). Der erste Schritt dieses Verfahrens besteht darin, den verwendeten Algorithmus – hierbei ein sogenannter Autoencoder, ursprünglich zur Videokompression entwickelt – mit umfangreichem Videomaterial der zu manipulierenden Person zu trainieren. Mittels Gesichtserkennung werden dabei alle relevanten Gesichtsaufnahmen auf einheitliche Bildausschnitte normiert und auf eine Auflösung von 256 × 256 Pixeln reduziert.

Im Anschluss daran erfolgt ein mehrstündiger Trainingsprozess, bei dem der Autoencoder ein sogenanntes Latent Face generiert – eine abstrahierte Repräsentation des Gesichts im latenten Raum. Diese Darstellung ist maschinell interpretierbar, für den Menschen jedoch meist nicht mehr als Gesicht identifizierbar. Ziel des Trainings ist es, durch den Decoder des Autoencoders eine möglichst originalgetreue Rekonstruktion aus diesem Latent Image zu erzeugen. Der Lernprozess gilt als abgeschlossen, sobald eine visuell überzeugende Übereinstimmung zwischen dem ursprünglichen Bild und dessen rekonstruiertem Pendant erreicht ist (vgl. Zucconi 2018b).

Abbildung 8:
„Normalfall von En- und Decoding zwecks Videokomprimierung

Mithilfe der Anwendungen FaceSwap und FakeApp lassen sich hingegen auch Videosequenzen manipulieren, in denen die Mimik dynamisch an die jeweilige Zielquelle (Target) angepasst wird (vgl. Zucconi 2018b). Der erste Schritt dieses Verfahrens besteht darin, den verwendeten Algorithmus – hierbei ein sogenannter Autoencoder, ursprünglich zur Videokompression entwickelt – mit umfangreichem Videomaterial der zu manipulierenden Person zu trainieren. Mittels Gesichtserkennung werden dabei alle relevanten Gesichtsaufnahmen auf einheitliche Bildausschnitte normiert und auf eine Auflösung von 256 × 256 Pixeln reduziert.

Im Anschluss daran erfolgt ein mehrstündiger Trainingsprozess, bei dem der Autoencoder ein sogenanntes Latent Face generiert – eine abstrahierte Repräsentation des Gesichts im latenten Raum. Diese Darstellung ist maschinell interpretierbar, für den Menschen jedoch meist nicht mehr als Gesicht identifizierbar. Ziel des Trainings ist es, durch den Decoder des Autoencoders eine möglichst originalgetreue Rekonstruktion aus diesem Latent Image zu erzeugen. Der Lernprozess gilt als abgeschlossen, sobald eine visuell überzeugende Übereinstimmung zwischen dem ursprünglichen Bild und dessen rekonstruiertem Pendant erreicht ist (vgl. Zucconi 2018b).

Abbildung 9:
„Abgewandelter Fall, bei welchem die Decoder vertauscht wurden“

/ 2.5 Deep Video Portrait

Eine weiterentwickelte Methode von LipSync from Audio wurde auf der SIGGRAPH 2018 vorgestellt. Im Gegensatz zu früheren Ansätzen basiert diese neue Technik auf einem Generative Adversarial Network (GAN), das aus zwei miteinander kommunizierenden neuronalen Netzwerken besteht (vgl. Schade 2017: S. 97).

Zu Beginn wird jeder Frame der beiden Videoquellen, der „Source“ und der „Target“, mithilfe eines „parametric face and illumination models“ analysiert. Dabei werden die Parameter „identity“, „head pose“, „expression“, „eye gaze“ und „scene lighting“ berücksichtigt. Diese Analyse ermöglicht es, die Gesichtsmerkmale und Beleuchtungseffekte von der „Source“ auf die „Target“-Person zu übertragen. Im nächsten Schritt werden auf Grundlage dieser Anpassungen synthetische Darstellungen (synthetic renderings) der „Target“-Person erzeugt. Über ein „Rendering-to-Video Translation Network“ – einen Autoencoder, der den synthetischen Input in einen fotorealistischen Output übersetzt – wird das finale Output-Video generiert (vgl. Hyeongwoo et al. 2018: S. 4).

Abbildung 10:
Grafische Zusammenfassung von „Deep Video Portrait“

Dieser Ansatz verwendet ein Generative Adversarial Network (GAN), das aus zwei Hauptkomponenten besteht: einem Generator, der „Kandidaten“ erstellt, und einem Diskriminator, der diese „Kandidaten“ bewertet. Das Ziel des Generators ist es, Ergebnisse zu erzeugen, die der Diskriminator nicht von den echten „Kandidaten“ unterscheiden kann (vgl. Schade 2017: S. 97).

“The magic of GANs lies in the rivalry between the two neural nets. It mimics the back-and-forth between a picture forger and an art detective who repeatedly try to outwit one another.“
(Giles in Schade: 2017: S. 97)

„Deep Video Portrait“ ist in der Lage, nicht nur die Mimik, sondern auch die vollständige 3D-Kopfposition, Blickrichtung sowie Blinzeln in Echtzeit von einer „Source“- auf eine „Target“-Person zu rendern. Abgesehen vom Mund, der von der „Source“-Person übernommen wird, bleibt die gesamte Identität des „Target“ erhalten (vgl. Hyeongwoo et al., 2018: S. 1-2). Jegliche Mimik kann zudem manuell durch Parametereinstellungen in Echtzeit verändert werden. Dabei wird auch der Torso entsprechend der Kopfposition manipuliert (vgl. Theobalt, 2018: 06:36–06:59), und die Schatten sowie die Belichtung von Torso und Hintergrund werden angepasst (vgl. Hyeongwoo et al., 2018: S. 7). Selbst Modifikationen der gesamten „facial identity“ sind möglich (vgl. Theobalt, 2018: 06:36–06:59), was beispielsweise dazu führen könnte, dass Software zur Gesichtserkennung umgangen wird.

Darüber hinaus ist es möglich, einzelne Parameter wie „Eye Gaze“ oder „Head Pose“ zu deaktivieren und damit „einzufrieren“ (vgl. Theobalt, 2018: 02:53–03:04). Im Vergleich zu den Ansätzen von Thies et al. (2016) (Abb. 11) und Suwajanakorn et al. (2017) (Abb. 12) bietet „Deep Video Portrait“ den bisher anspruchsvollsten und realistischsten Ansatz in der Manipulation von Videos (vgl. Hyeongwoo et al., 2018: S. 12). Der größte Fortschritt liegt hierbei in der Anpassung der „Head Pose“ und des „Torso“, wodurch eine nahezu identische synthetische Kopie der gesamten Mimik sowie der „Upper Body“-Gestik von einer „Source“- auf ein „Target“-Video übertragen werden kann. Aufgrund der enormen Überzeugungskraft wurde bei der Entwicklung des „Deep Video Portrait“ eine gezielte Imperfektion des „discriminators“ implementiert, sodass dieser nur in der Hälfte aller Fälle erfolgreich entscheidet (vgl. Hyeongwoo et al., 2018b).

Abbildung 11:
Vergleich mit Thies et al. 2016
Abbildung 12:
Vergleich mit Thies et al. 2016

/ 3. Möglichkeiten der Identifizierung manipulierter Videos

Angesichts der Komplexität und Vielfalt der verschiedenen Ansätze werde ich mich in diesem Abschnitt auf zwei Studien konzentrieren, in denen unterschiedliche Datensätze sowohl durch Probanden als auch durch Algorithmen getestet werden.

/ 3.1 Propandenstudien

Die erste Benutzerstudie, die von Hyeongwoo et al. durchgeführt wurde, testet die Ergebnisse des „Deep Fake Portrait“ mit 135 zufälligen Probanden aus Nordamerika und Europa. Die Datensätze bestehen aus jeweils 5-sekündigen Videoclips von „self-reenacted videos“, bei denen das „synthetische“ Video eine Mimik und Gestik erzeugt, die dem Realvideo möglichst exakt entspricht. Gezeigt wurde jeweils ein zufälliger Clip (ohne Wiederholung) mit einer Auflösung von 256x256 oder 512x512 Pixeln. Die Probanden sollten die Clips anschließend anhand der Aussage „This video clip looks real to me“ auf einer Skala von 1 bis 5 bewerten (vgl. Hyeongwoo et al.: 2018: S. 10).

Abbildung 13:
1-5 zeigt die Bewertung zur Aussage „This video clip looks real to me“,
1 = nicht zustimmend, 5 = zustimmend (4+5 = real)

Besonders auffallend ist, dass nur 80% der Probanden die tatsächlich realen Clips (256x256) als solche identifizierten („Mean“), was sich möglicherweise mit einer durch die Studie erzeugten Übersensibilisierung erklären lässt. Bei den höher aufgelösten Clips (512x512) stieg dieser Anteil auf 84% (vgl. Hyeongwoo et al.: 2018: S. 11). Mit zunehmender Auflösung stieg im Allgemeinen auch die Korrektheit der Bewertungen.

Die überzeugendsten Resultate lieferte laut dieser Studie die Manipulation von Clips von Putin. Bei einer Auflösung von 512x512 waren bei den Realaufnahmen nur 72% der Probanden von deren Echtheit überzeugt, während der Anteil bei den manipulierten Szenen bei 63% lag. Die schlechtesten Ergebnisse lieferten die Aufnahmen von Obama. Bei den hochaufgelösten Szenen konnten 91% die realen Aufnahmen als solche identifizieren, und 44% entlarvten die manipulierten Szenen als Fake (Abb. 13). Dies könnte mit dem geographischen Ursprung der Probanden zusammenhängen, da diese alle aus NATO-Gebieten stammten. Es lässt sich vermuten, dass Obama in den Medien weitaus stärker repräsentiert wurde als Putin. Die Probanden hatten daher vermutlich ein stärkeres Erinnerungsvermögen an Obamas Mimik und konnten selbst kleinste Abweichungen deutlich identifizieren.

Des Weiteren lässt sich vermuten, dass bei Unwissenheit über die Manipulation der Videos das Infragestellen der Echtheit des Gezeigten weit geringer ausfallen würde.

/ 3.2 Detektion mittels "machine learning"

Ein zweiter Ansatz stützt sich auf „Convolutional Neural Networks“ im Bereich des „Machine Learning“ und benötigt im Gegensatz zu vorherigen Versuchen keine durch „DeepFake“ manipulierten Bilder als Negativbeispiele. Der Fokus liegt beim Detektieren von „Fake“-Videos auf sogenannten „Face Warp“-Artefakten, also Teilen des Gesichts, die durch den Manipulationsalgorithmus verzerrt wurden. Dies hat den Vorteil, dass Negativbeispiele durch einfache Bildbearbeitung erzeugt werden können, wodurch das Erstellen ressourcenaufwändiger „Deep Fake“-Videos entfällt. Zudem sind diese Artefakte in nahezu jedem synthetisierten Video vorhanden, wodurch ein deutlich größeres Spektrum abgedeckt wird.

Zu Testzwecken werden zwei verschiedene Datensets aus insgesamt 24.442 Bildern verwendet, die in mehreren Schritten mithilfe des „Gaußschen Weichzeichners“ den Frame eines „Deep Fake“-Videos simulieren (vgl. Li: 2019: S. 46-48). Der in diesem Zusammenhang sicherste Algorithmus, „ResNet50“, erkennt manipulierte Bilder mit einer Wahrscheinlichkeit von 97,4%. Sobald innerhalb eines Videoclips eine definierte Anzahl von Frames als „synthetisiert“ erkannt wird, ist von einer Manipulation durch „Deep Fake“ auszugehen. „ResNet50“ erzielt in der Detektion eine Erfolgsquote von 98,7%, „ResNet101“ sogar 99,1%. Zur Validierung wird die gleiche Analyse für ein durch tatsächliche „Deep Fake“-Algorithmen manipuliertes Video durchgeführt, wobei „ResNet50“ hierbei sogar eine Erfolgsquote von 99,9% erzielt (vgl. Li: 2019: S. 49).

/ 3.3 Der "uncanny valley"

Der "Uncanny Valley"-Effekt ist ein zentraler Aspekt bei der Erstellung und Entlarvung von „Deep Fake“-Material. Er beschreibt die Reaktion von Menschen auf Roboter oder durch CGI beziehungsweise Algorithmen manipulierte oder erstellte Charaktere und Menschen. Gemäß dieser Theorie steigt das Vertrauen und die Akzeptanz mit zunehmender Menschenähnlichkeit an. Ab einem bestimmten Punkt, der dem Menschen sehr nahekommt, sinkt das Vertrauen jedoch rapide, um danach wieder anzusteigen, sobald das Abbild nahezu perfekt ist.Dies bedeutet, dass es einen großen Bereich gibt, in dem ein Abbild eines Menschen oder Charakters zwar nahezu identisch mit der realen Person erscheint, jedoch Unbehagen oder sogar Angst hervorruft. Dieser Effekt tritt auf, weil die menschliche Wahrnehmung eine subtile, aber wichtige Differenz zwischen dem echten Menschen und einer künstlichen Darstellung spürt, was die Verunsicherung erzeugt. (vgl. Körber: 2016)

Abbildung 14:
Darstellung des „Uncanny Valley Effektes“

/ 4. Fazit

Die rasante Entwicklung von „Deep Fake“-Technologien hat sowohl enorme Potenziale als auch beunruhigende Risiken, die nicht nur die Unterhaltungsindustrie betreffen, sondern auch weitreichende Auswirkungen auf Politik und Gesellschaft haben könnten. Die Möglichkeit, realistisches Video- und Audiomaterial zu manipulieren, kann für kreative Produktionen und Kostensenkungen in der Unterhaltungsindustrie von Nutzen sein, birgt aber auch enorme Gefahren für die Authentizität und das Vertrauen in digitale Medien.

Ein zentrales Problem ist, dass ein Großteil der Bevölkerung sich noch nicht über das Ausmaß und die Verfügbarkeit solcher Technologien im Klaren ist. Dies bedeutet, dass viele Menschen wahrscheinlich nicht in der Lage sein werden, zwischen echten und manipulierten Inhalten zu unterscheiden, besonders in der Zukunft, wenn die Qualität der „Deep Fakes“ weiter verbessert wird. Die Entwicklung dieser Algorithmen schreitet schnell voran, und es ist absehbar, dass in naher Zukunft der Mensch, selbst mit Wissen über die Existenz von „Deep Fakes“, Schwierigkeiten haben wird, zwischen realen und falschen Videos zu unterscheiden.

Ein Lösungsansatz könnte in der Verantwortung der Plattformen wie Social Media und Videoportalen liegen, die Nutzung solcher Technologien zu regulieren und Mechanismen zur Erkennung von „Deep Fakes“ zu implementieren. Allerdings stellt sich hier die Frage, ob man den Plattformen genug Vertrauen schenken kann, um diese Verantwortung gerecht zu übernehmen, insbesondere in Anbetracht ihrer oftmals laxen Umgangsweise mit Fehlinformationen und extremen Inhalten.

Ein vertrauenswürdigerer Ansatz könnte die Entwicklung von Browser-Plugins sein, die Videos auf ihre Authentizität hin analysieren und sie als „Deep Fake“ oder „Real“ kennzeichnen. Das Hauptproblem hierbei ist die enorme Rechenleistung und Datenmenge, die für eine solche Analyse erforderlich wäre. Eine mögliche Lösung könnte die Auslagerung der Analyse auf externe Server sein, sodass die Rechenlast von den Endgeräten der Nutzer genommen wird. Zudem müsste das Plugin nur beim erstmaligen Ansehen eines Videos eine Analyse durchführen, und das Video könnte anschließend mit einer Kennzeichnung versehen werden.

Die Einführung von „Deep Fakes“ hat auch das Potenzial, die Glaubwürdigkeit von Beweismaterial in der realen Welt zu untergraben, insbesondere in Bezug auf Videos von Straftaten oder Skandalen. Es könnte eine Situation entstehen, in der jemand fälschlicherweise behauptet, dass ein Video manipuliert wurde, um die eigene Schuld zu leugnen – eine problematische Entwicklung für die Rechtssicherheit.

Die ethischen und rechtlichen Implikationen dieser Technologien sind enorm und erfordern dringende Diskussionen darüber, wie der Missbrauch dieser mächtigen Werkzeuge in der Zukunft verhindert werden kann. Denkst du, dass die Einführung solcher Tools wie Browser-Plugins und Plattformregulierungen effektiv sein könnte, oder ist eine stärkere gesellschaftliche Aufklärung und Aufsicht notwendig?

“Think about Donald Trump. If that audio recording of him saying he grabbed a woman was released today, he would have plausible deniability. He could say ‘someone could have synthesized this’ and what’s more, he would have a fair point.”
(Hany Farid in Vincent: 2018)

Ein wichtiger Faktor ist, dass medial häufig gezeigte Personen von Menschen eher als „Deep Fake“ identifiziert werden können. Mit zunehmender Perfektion der Algorithmen wird jedoch auch immer mehr Videomaterial verfügbar, das zum Training neuronaler Netzwerke genutzt werden kann. Politiker bilden hier eine besonders große Angriffsfläche, da von ihnen oft große Mengen an Videomaterial existieren, das ähnliche Lichtverhältnisse, Kamerawinkel und Hintergründe aufweist. Die Manipulation politischer Reden birgt enormen Konfliktpotenzial, was an dieser Stelle nicht weiter erläutert werden muss. Selbst wenn manipulierte Videos als solche erkannt werden, lässt sich aufgrund vergangener „Fake News“-Skandale absehen, dass es bis zur endgültigen Aufklärung oft eine gewisse Zeit dauern wird.

Blickt man jedoch auf die Unterhaltungs- und Werbeindustrie, eröffnen sich enorme Potenziale. So könnten Nachrichtensendungen innerhalb kürzester Zeit produziert werden, wobei Aussehen und Geschlecht des Nachrichtensprechers individuell auf den Betrachter angepasst werden. Werbung könnte ebenfalls individualisiert werden: In Kombination mit Geräten wie den Google Glasses könnte beispielsweise eine Werbung für „Parship“ mit der Vorstellung einer „perfekten Partnerin“ für den Träger erscheinen. Dasselbe könnte auf Charaktere aus Videospielen oder Filmen/Serien angewendet werden, was ganz neue kreative und kommerzielle Möglichkeiten eröffnen würde.

Ein weiteres großes Potenzial liegt in der sogenannten „De-Identifikation“. Politisch Verfolgte könnten ihre Gesichtsmerkmale so verändern, dass Gesichtserkennungssoftware keine Übereinstimmung mehr findet. Dies wäre besonders für Whistleblower von Bedeutung, die andernfalls durch Videobotschaften identifiziert werden könnten.

Zusammenfassend lässt sich sagen, dass die „Deep Fake“-Technologie sowohl Chancen als auch Risiken mit sich bringt. Dabei sollte man sich von der oft vorherrschenden negativen Haltung distanzieren. Wie bei jeder neuen Technologie gilt es, die potenziellen Gefahren zu minimieren, um die Vorteile und innovativen Möglichkeiten voll auszuschöpfen.

/ 5. Verweise

Quellenverzeichnis
- Bovenschulte, Marc (2019): „Deepfakes – Manipulation von Filmsequenzen“
https://www.tab-beim-bundestag.de/de/pdf/publikationen/themenprofile/Themenkurzprofil-025.pdf
[zuletzt abgerufen am 12.02.2020]

Furukawa, Yasutaka (2016):“ Photo-Consistency“
https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-31439-6_204
[zuletzt abgerufen am 14.02.2020]

- Hyeongwoo, Kim et al. (2018): “Deep Video Portraits”
https://arxiv.org/pdf/1805.11714.pdf
[zuletzt abgerufen am 14.02.2020]

- Hyeongwoo, Kim et al. (2018b): “Deep Video Portraits”
https://gvv.mpi-inf.mpg.de/projects/DeepVideoPortraits/
[zuletzt abgerufen am 14.02.2020]

- Körber, Jasmin (2016): „U wie Uncanny Valley“
https://www.br.de/puls/themen/netz/netzlexikon-uncanny-valley-102.html
[zuletzt abgerufen am 14.02.2020]

- Knight, Will (2016): “AI´s Language Problem”
https://www.technologyreview.com/s/602094/ais-language-problem/)
[zuletzt abgerufen am 14.02.2020]

- Langston, Jennifer (2017): „Lip-syncing Obama: New tools turn audio clips into realistic video”
https://www.washington.edu/news/2017/07/11/lip-syncing-obama-new-tools-turn-audio-clips-into-realistic-video/
[zuletzt abgerufen am 14.02.2020]

- Li, Yuezun und Lyu, Siwei (2019): „Exposing DeepFake Videos by Detecting Face Warping Artefacts”
https://arxiv.org/pdf/1811.00656
[zuletzt abgerufen am 14.02.2020]

- Luber, Stefan (2017): “Was ist Deep Learning?”
https://www.bigdata-insider.de/was-ist-deep-learning-a-603129/
[zuletzt abgerufen am 14.02.2020]

- Mallick, Satya (2016): „Face Swap using OpenCV ( C++ / Python)
https://www.learnopencv.com/face-swap-using-opencv-c-python/
[zuletzt abgerufen am 14.02.2020]

- Möller, Christian (2019): „Was tun gegen Fake News und Hate Speech?“
https://www.fh-kiel.de/fileadmin/data/multimedia/projekte/was_tun_gegen_hate_speech_und_fake_news.pdf#page=96
[zuletzt abgerufen am 14.02.2020]

- Oberoi, Gustav (2018): “Exploring Deep Fakes”
https://goberoi.com/exploring-deepfakes-20c9947c22d9
[zuletzt abgerufen am 14.02.2020]

- Patrini, Giorgio (2018): “Commoditisation of AI, digital forgery and the end of trust: how we can fix it”
giorgiop.github.io/posts/2018/03/17/AI-and-digital-forgery/
[zuletzt abgerufen am 14.02.2020]

- Schade, Frederic in Möller Christian (2019): „Deep Fakes - Produktion und Erkennung von Maschinen-generierten Fake Videos“, S: 96 - 110
https://www.fh-kiel.de/fileadmin/data/multimedia/projekte/was_tun_gegen_hate_speech_und_fake_news.pdf#page=96
[zuletzt abgerufen am 14.02.2020]

- (o.A.), ACM SIGGRAPH (Herausg.) (o.J.): „Was ist ACM SIGGRAPH?“
https://www.siggraph.org/about/what-is-acm-siggraph/german/
[zuletzt abgerufen am 14.02.2020]

- Suwajanakorn, Supasorn et al. (2017): Synthesizing Obama: Learning Lip Sync from Audio
https://grail.cs.washington.edu/projects/AudioToObama/ [Paper below]
[zuletzt abgerufen am 14.02.2020]

- Thies, Justus et al. (2016): “Face2Face: Real-time Face Capture and Reenactment of RGB Videos”
http://niessnerlab.org/projects/thies2016face.html [Paper below]
[zuletzt abgerufen am 14.02.2020]

- Vincent, James (2017): “Adobe´s prototype AI tools let you instantly edit photos and videos”
https://www.theverge.com/2017/10/24/16533374/ai-fake-images-videos-edit-adobe-sensei
[zuletzt abgerufen am 14.02.2020]

- Vincent, James (2018): “Why we need a better definition of ‘deepfake’”
www.theverge.com/2018/5/22/17380306/deepfake-definition-ai-manipulation-fake-news
[zuletzt abgerufen am 14.02.2020]

- (o.A.), Wikipedia (Herausg.): 2020: „Long Short-Term Memory”
https://en.wikipedia.org/wiki/Long
[zuletzt abgerufen am 14.02.2020]

- Zucconi, Alan (2018a): „An Introduction to Neural Networks and Autoencoders”
https://www.alanzucconi.com/2018/03/14/an-introduction-to-autoencoders/
[zuletzt abgerufen am 14.02.2020]

- Zucconi, Alan (2018b): „An Introduction to DeepFakes and Face-Swap Technology”
https://www.alanzucconi.com/2018/03/14/introduction-to-deepfakes/
[zuletzt abgerufen am 14.02.2020]

- Zucconi, Alan (2018c): „How To Create The Perfect DeepFakes”
https://www.alanzucconi.com/2018/03/14/create-perfect-deepfakes/
[zuletzt abgerufen am 14.02.2020]
Videoverzeichnis
Theobalt, Christian: 2018: „Deep Video Portraits – SIGGRAPH 2018”
[YouTube]. https://www.youtube.com/watch?v=qc5P2bvfl44
[zuletzt abgerufen am 14.02.2020]

Niessner, Matthias: 2016: “Real-time Face Capture and Reenactment of RGB” Videos (CVPR 2016 Oral) [YouTube]. https://www.youtube.com/watch?v=ohmajJTcpNk
[zuletzt abgerufen am 14.02.2020]

Suwajanakorn, Supasorn: 2017: „Teaser Synthesizing Obama: Learning LipSync from Audio“ [YouTube]. https://www.youtube.com/watch?time_continue=100&v=MVBe6_o4cMI&feature=emb_title
[zuletzt abgerufen am 14.02.2020]

Theobalt, Christian: 2018: „Deep Video Portraits – SIGGRAPH 2018“
[YouTube] https://www.youtube.com/watch?v=qc5P2bvfl44
[zuletzt abgerufen am 14.02.2020]
Abbildungsverzeichnis
Abbildung 1: “Target, Source und Output Frame”
http://niessnerlab.org/projects/thies2016face.html [Paper below] S. 1
[zuletzt abgerufen am 14.02.2020]

Abbildung 2: “Target, Source und Output Frame”
http://niessnerlab.org/projects/thies2016face.html [Paper below] S. 5
[zuletzt abgerufen am 14.02.2020]

Abbildung 3: “Target, Source und Output Frame”
http://niessnerlab.org/projects/thies2016face.html [Paper below]
[zuletzt abgerufen am 14.02.2020]

Abbildung 4: “Ablauf: LipSync from Audio”
https://www.washington.edu/news/2017/07/11/lip-syncing-obama-new-tools-turn-audio-clips-into-realistic-video/
[zuletzt abgerufen am 14.02.2020]

Abbildung 5: “Jaw-correction (Lip Sync from Audio)” S. 7
https://grail.cs.washington.edu/projects/AudioToObama/ [Paper below]
[zuletzt abgerufen am 14.02.2020]

Abbildung 6: “Vergleich – Face2Face + SIGGRAPH 2017) S. 10
https://grail.cs.washington.edu/projects/AudioToObama/ [Paper below]
[zuletzt abgerufen am 14.02.2020]

Abbildung 9-10: „How to create the perfect DeepFakes”
https://www.alanzucconi.com/2018/03/14/create-perfect-deepfakes/
[zuletzt abgerufen am 14.02.2020]

Abbildung 10-12: „Deep Video Portraits“ S. 9-12
https://arxiv.org/pdf/1805.11714.pdf
[zuletzt abgerufen am 14.02.2020]
//Lazy Load Videos