Netzwelt

Deepfakes

Im falschen Film

Gefälschte Videos von Politikern und Promis gelten als mächtige Werkzeuge für Desinformation und Betrug. Doch wie lässt sich ein manipulierter Film erkennen?

YouTube/ TheFakening

Deepfake mit Wladimir Putins Gesicht - im Original ist Melania Trump zu sehen

Von
Donnerstag, 12.09.2019   18:51 Uhr

Es klang für viele Medien einfach zu spektakulär-verlockend, um es zu ignorieren: Der Chef einer britischen Firma bekam angeblich einen Anruf vom CEO des deutschen Mutterkonzerns - mit der Anweisung, umgehend 220.000 Euro auf ein bestimmtes Konto zu überweisen. Weil der Brite die Stimme und den Akzent des Deutschen zu erkennen geglaubt habe, habe er die Zahlung durchgeführt. Doch die Stimme sei gefälscht gewesen, generiert von einer Deepfake-Software, die mit Tonaufnahmen des CEOs trainiert worden sei. Das Geld sei bei Betrügern gelandet.

Das ist - verkürzt dargestellt - die Story, die bereits im Juni durch deutsche Medien ging, vor zwei Wochen auch im "Wall Street Journal" erschien und nun wieder in deutschen Medien auftaucht. Die einzige Quelle ist die Versicherung des ungenannten Konzerns, Euler Hermes. Es gibt allerdings keine Belege dafür, dass die Story stimmt.

"Neue Betrugsmasche: Erster Fake President Fall mit Stimmimitation durch KI-Software", schreibt Euler Hermes in seiner Pressemitteilung. Fake President wird die Betrugsmasche genannt, bei der sich die Täter als Chef ausgeben, KI steht für künstliche Intelligenz, in diesem Fall Deep Learning, der technischen Grundlage für Deepfakes.

Doch auf die Frage, woher man denn wisse, dass eine solche Software und kein Stimmenimitator zum Einsatz gekommen ist, antwortet eine Pressesprecherin dem SPIEGEL per E-Mail: "Wir wissen es nicht mit 100% Sicherheit. Theoretisch könnte es ein menschlicher Stimmenimitator gewesen sein. Aber wir gehen nicht davon aus. Dafür gibt es einige Anhaltspunkte (aber keine Beweise)."

Die Anhaltspunkte wiederum, die sie nennt, haben keinen technischen Bezug, man muss sie keineswegs als Indizien für einen Deepfake interpretieren. Der angeblich "erste Fall" kann daher allenfalls als "möglicher Fall" bezeichnet werden. Was durchaus symptomatisch ist für die Debatte über Deepfakes und die daraus entstehenden Risiken.

Das düstere Szenario, vor dem Politiker, IT-Sicherheitsunternehmen, Forscher, Medien und selbst Geheimdienste warnen, sieht so aus: Es wird zunehmend einfach, mit Deepfakes jedes beliebige Gesicht in jedes beliebige Video zu setzen und beliebige Stimmen nachzuahmen, ohne dass die Manipulation auffällt. Wer die Mimik und Stimmen von Regierungschefs, CEOs oder anderen mächtigen Menschen synthetisieren und sie beliebige Sätze sagen lassen kann, hat potenziell sehr wirksame Werkzeuge für Desinformation, Verleumdung, Betrug und Erpressung.

Die Realität sieht - Stand September 2019 - weniger düster aus. Die Technik entwickelt sich zwar rasch weiter. Aber Deepfakes sind heute entweder einfach herzustellen oder (zumindest ansatzweise) überzeugend. Mit der chinesischen App Zao etwa können sich Nutzer per Selfie in bekannte Filmszenen schneiden, aber realistisch sieht das nicht aus. Für vergleichsweise hochwertige sogenannte Face Swaps, also den Austausch von Gesichtern oder zumindest der Mundpartie in einem Video, braucht man spezielle Hardware und Software, mindestens einen halben Tag, besser aber mehrere Tage Zeit sowie Erfahrung im Umgang mit Trainingsdaten und am besten auch dem Feintuning von Machine-Learning-Modellen. Diese Videoanleitung zum Beispiel gibt einen Eindruck vom nötigen Arbeitsaufwand.

Aber auch nach einem gelungenen Face Swap hat das neue Gesicht noch die alte Stimme. Ein Fall, in dem Bilder und Tonspur überzeugend von einer Deepfake-Software erstellt wurden, ist bisher nicht bekannt geworden. Der größte Schaden, den Deepfakes bisher angerichtet haben, dürfte in der Demütigung von Menschen liegen, deren Gesichter in Pornovideos montiert wurden - unabhängig von der Qualität der Fälschung.

Gleichzeitig werden derzeit stattliche Summen für die Entwicklung neuer Werkzeuge ausgegeben, die Fälschungen auch dann erkennen sollen, wenn das menschliche Auge oder Gehör überfordert ist. Facebook, Microsoft und einige andere amerikanische Unternehmen und Universitäten zum Beispiel haben gerade einen entsprechenden Wettbewerb und insgesamt zehn Millionen Dollar Preisgeld ausgelobt. Darpa, die Forschungsbehörde des US-Verteidigungsministeriums, hat nach der Hälfte ihres auf vier Jahre ausgelegten Förderprogramms bereits 68 Millionen Dollar verteilt, unter anderem an Hany Farid, Professor in Berkeley und Pionier auf dem Gebiet der Deepfake-Erkennung.

Die Mimik-Methode

Farid hat zusammen mit Kollegen einen Weg gefunden, die jeweils typischen Gesichtsmuskel- und Kopfbewegungen eines Menschen beim Sprechen aus einem Video zu extrahieren und ein Modell davon zu bilden. Die Bewegungen sind so minimal und individuell, dass heutige Deepfake-Algorithmen sie nicht abbilden können. Beim Abgleich erkennt Farids Werkzeug deshalb mit hoher Zuverlässigkeit ein gefälschtes Video, in dem ein ganzes Gesicht oder auch nur die Lippenpartie ausgetauscht wurde, um dem Menschen im Video beliebige Worte in den Mund zu legen.

Noch im Dezember will Farid es Journalisten auf einer Website zur Verfügung stellen, inklusive den Modellen aller Kandidaten für die US-Präsidentschaftswahl 2020. Deepfakes von anderen Prominenten kann die Technik dementsprechend zunächst nicht erkennen, das Werkzeug ist speziell auf die US-Wahl ausgelegt und wäre daher selbst dann kein Allheilmittel, wenn es den Deepfakes-Generatoren immer überlegen bliebe. Dem SPIEGEL schreibt Farid dazu in einer E-Mail: "Diese Technik ist nicht dazu gedacht, alle Videos auf YouTube oder Facebook zu analysieren. Sie ist vielmehr Teil eines größeren Werkzeugkastens, der Journalisten helfen soll, eine Story zu verifizieren."

Die "Mouthnet"-Methode

Andere Forscher und Firmen arbeiten an generellen Lösungen, die sich auf jedes Video anwenden lassen. Mouthnet ist ein Beispiel für ein solches System, entwickelt von Matt Price, Forscher bei der IT-Sicherheitsfirma ZeroFox. Mouthnet analysiert die Mundpartien in Videos und extrahiert sowohl für Menschen deutlich sichtbare als auch unauffällige Merkmale aus den einzelnen Bildern. Ein häufiger grober Fehler von Deepfake-Generatoren ist die Darstellung von Zähnen als zusammenhängende, gleichmäßige Reihe. Subtiler sind dagegen bestimmte digitale Artefakte, die beim Erstellen eines Fake-Videos entstehen. "Mouthnet erkennt, dass manche Pixel nicht von einer Kamera stammen", sagt Matt Price. Zähne werden bald realistischer aussehen, vermutet er, aber die verräterischen Pixel "werden so schnell nicht verschwinden".

Bisher erkennt sein Modell allerdings nur rund jedes zweite Deepfake-Video und hält jedes vierte echte Video für eine Fälschung - für den Alltagseinsatz ist das noch untauglich. Der an der Technischen Universität München entwickelte Algorithmus FaceForensics (++) hingegen erkennt knapp vier von fünf Deepfake-Videos.

Die Mäuse-Methode

Zukunftsmusik ist hingegen die Idee, die George Williams im August auf der IT-Sicherheitskonferenz Black Hat in Las Vegas vorgestellt hat. Williams arbeitet für den Hardware-Hersteller GSI Technology aus Kalifornien, der unter anderem Mikroprozessoren für Deep-Learning-Anwendungen entwickelt. Zusammen mit dem Neurobiologen Jonathan Saunders und dem Datenwissenschaftler Alexander Comerford behauptet er: Mäuse können den Menschen verraten, ob eine Stimme echt oder von einem System wie zum Beispiel Googles Tacotron 2 nachgemacht ist.

"Mäuse haben ein ähnliches Gehörsystem wie Menschen", sagt Williams. "Sie müssen aber keinen Sinn in den Tönen erkennen, die man ihnen vorspielt. Sie erkennen deshalb Artefakte, die auf synthetisierte Stimmen hindeuten, besser als wir Menschen." Es sei möglich, Mäusen in 18 Wochen eine achtzigprozentige Trefferquote bei der Erkennung von gefälschten Aufnahmen beizubringen, sagt Williams.

Wie gut erkennen Menschen Deepfakes ...

... wenn sie wissen, dass sie welche zu sehen bekommen?
Abhängig von der Testsituation erkennen Menschen gefälschte Videos oder Audioaufnahmen unterschiedlich gut. Sollen sie sagen, welche von zwei Aufnahmen ein Deepfake ist, liegen sie im Schnitt in 88 Prozent der Fälle richtig. Das ist das Ergebnis einer bisher nicht veröffentlichten Studie von George Williams von GSI Technology.
... wenn sie unvorbereitet sind?
In einem realistischeren Szenario sieht das anders aus. Laut einer Studie von Professor Matthias Nießner von der Technischen Universität München erkennen ungeübte Menschen stark komprimierte Videos, wie sie in sozialen Medien typisch sind, im Schnitt "lediglich mit einer Wahrscheinlichkeit von knapp über 50 Prozent richtig".

Das Ziel sei natürlich nicht, Millionen von Mäusen zu trainieren und sie an Millionen von Menschen zu verteilen, sondern ihre Fähigkeit sozusagen als Muster digital in einer Software nachzubilden. Bis das gelingen kann, ist aber noch viel Forschungsarbeit nötig: "Wir reden hier über Jahre", sagt Saunders.

Die Markierungs-Methode

Firmen wie Truepic und Projekte wie ProofMode wiederum setzen ganz am Anfang an, in den Kameras. Truepic hat eine App entwickelt, die jedes Foto und jedes Video bei der Aufnahme mit einer Art digitalem Wasserzeichen markiert. Es besteht aus Daten aus dem Bildsensor sowie verschiedenen Metadaten wie Ort und Zeit einer Aufnahme, wird kryptografisch signiert, verschlüsselt in eine Datenbank oder Blockchain übertragen und gespeichert. Jedes so geschossene Foto, das im Internet auftaucht, kann anhand des Wasserzeichens auf seine Herkunft und Integrität überprüft werden.

Der Nachteil dieser Technik: Sie muss erst weitverbreitet und akzeptiert sein, zum Beispiel durch eine Integration in die Kamerasoftware des iPhones, damit Menschen bei Bildern und Videos ohne Wasserzeichen misstrauisch werden und genauer hinsehen.

Wer übernimmt die Verantwortung?

Neben der Suche nach der richtigen Erkennungstechnik ist dies die nächste ungelöste Frage zum Umgang mit Deepfakes: Soll letztlich jemand für die Erkennung verantwortlich sein und wenn ja, wer? Hardware-Hersteller? Die Betreiber sozialer Netzwerke und anderer Onlineplattformen? Jeder einzelne Internetnutzer? Aus verschiedenen Gründen sind alle drei Ansätze schwer vorstellbar.

Selbst wenn alle Hardware-Hersteller von allen Regierungen gesetzlich verpflichtet oder sich freiwillig einigen würden, so etwas wie Truepic zu integrieren, gäbe es noch Milliarden alter Geräte ohne Wasserzeichen-Funktion auf der Welt. Damit ist auch klar, dass niemals alle Menschen gezwungen werden könnten, ausschließlich manipulationsgeschützte Inhalte zu erstellen oder alles auf Authentizität zu überprüfen, was ihnen im Internet begegnet. Vorstellbar wäre allenfalls eine Selbstverpflichtung von Medien, eigene Inhalte mit Wasserzeichen zu versehen und nur überprüfte Inhalte in der Berichterstattung als authentisch zu betrachten. Doch wer Medien schon heute nicht vertraut, wird das auch dann nicht tun.

Bleiben noch die Diensteanbieter. "Ich stelle mir vor, dass diese Techniken von den Facebooks, Twitters und YouTubes dieser Welt eingesetzt werden", sagt Hany Farid, und er ist mit dieser Meinung nicht allein. Zumindest das Skalierungsproblem wäre so gelöst: ein Deepfake-Detektor für Millionen Nutzer.

Dafür gäbe es eine weitere Überwachungsschicht im Netz, denn eine Deepfake-Erkennung auf der Plattformebene wäre nichts anderes als ein zusätzlicher Uploadfilter oder ein nachgelagerter Filter. Auf Facebook, Twitter, YouTube und anderen Seiten käme zu den Algorithmen, die automatisch Terrorinhalte, dokumentierten Kindesmissbrauch und Urheberrechtsverletzungen aussortieren sollen, noch einer hinzu. Und ebenso wie die anderen kann er auch mal falsch liegen, was die Nutzer aber irgendwie merken können müssten.

Jonathan Saunders, der Neurobiologe mit den Mäusen, glaubt deshalb letztlich nicht an eine technische, sondern an eine gesellschaftliche Antwort auf das Deepfake-Phänomen: "Die Lektion, die wir durch Photoshop gelernt haben, ist das Vorbild. Es gab eine Reihe von gefälschten Fotos, die großen Schaden angerichtet haben, aber wir haben unsere Erwartungen angepasst." Sobald Menschen erst einmal einer Reihe von überzeugenden Deepfakes begegnet seien, "werden sie aufhören, alles zu glauben".

insgesamt 14 Beiträge
aschu0959 12.09.2019
1. Es ist an der Zeit
für mehr Wahrheit im Internet, nicht für gefälschte Informationen ! Da sind die Politiker gefordert, also wird wohl jahrelang nichts pas-sieren, bis das Problem nicht mehr zu behandeln ist. Ich traue nur noch dem Spiegel.
für mehr Wahrheit im Internet, nicht für gefälschte Informationen ! Da sind die Politiker gefordert, also wird wohl jahrelang nichts pas-sieren, bis das Problem nicht mehr zu behandeln ist. Ich traue nur noch dem Spiegel.
krautrockfreak 12.09.2019
2. Das wird noch ein Riesenproblem werden!
Eigentlich sollten sich alle Regierungen einig sein, solche Software zu verbieten, denn das ist ein mächtigeres Werkzeug als jede Waffe bzw. es ist eine Waffe, die katastrophale Auswirkungen haben wird.
Eigentlich sollten sich alle Regierungen einig sein, solche Software zu verbieten, denn das ist ein mächtigeres Werkzeug als jede Waffe bzw. es ist eine Waffe, die katastrophale Auswirkungen haben wird.
Peer Pfeffer 12.09.2019
3. Medien-Phishing
Ich fürchte @1, dass man die Benutzer des Internets nicht durch Politiker zur Wahrheit zwingen kann, denn das hieße massive, unakzeptable Filter und Zensur auf allen Netzschichten, noch kann man @2, irgendwelche Software [...]
Ich fürchte @1, dass man die Benutzer des Internets nicht durch Politiker zur Wahrheit zwingen kann, denn das hieße massive, unakzeptable Filter und Zensur auf allen Netzschichten, noch kann man @2, irgendwelche Software verbieten. Kann man zwar, aber siehe zb BlackHat-Hacker-Software, geschrieben wird sie trotzdem, wer will kontrollieren, was jemand auf seinem privaten Rechner zuhause so treibt, und die intessierten Kreise kommen auch dran. Man kann ja nicht mal das Herstellen und den Vertrieb von illegalen Drogen unterbinden. Mit deep learning und anderen Innovationen wird man in der Erkennung sicher noch weiter kommen. Aber vor allem müssen sich alle klar werden, dass Ton-, Bild- und Videoaufnahmen einfach keine evidenten Medien mehr sind. Wer auf Fälschungen reinfällt aus althergebrachtem, naivem guten Glauben, erliegt evtl. einer Art Medien-Phishing.
eugler 12.09.2019
4. Über die Quelle
Erkennen lassen sich solche Fakes über die Quellen. Sämtliches Materialien aus den Händen von den Diensten, abhängien Medien ala SPON, Bild usw und von unbekannt müssen per se als unglaubwürdig erkannt werden. Also genau wie [...]
Erkennen lassen sich solche Fakes über die Quellen. Sämtliches Materialien aus den Händen von den Diensten, abhängien Medien ala SPON, Bild usw und von unbekannt müssen per se als unglaubwürdig erkannt werden. Also genau wie bereits heute. Es ändert sich defacto nichts, es werden nur noch mehr Menschen kritisch werden. Wenn ich an das Bin Laden Video denke, dann ist nun auch dem letzten klar, dass Deep Fake keine neue Technologie ist und wir auch zurückliegenden Medien aus den genannten Quellen nicht hätten vertrauen sollen.
haresu 12.09.2019
5. Skepsis
Skepsis wäre schon mal gut. Ist aber nicht mehr besonders verbreitet. Empörung, das lieben die Leute und natürlich Hype. Enttäuschung mögen sie auch ganz gerne, aber nicht wegen der Ent- Täuschung sondern wegen der [...]
Skepsis wäre schon mal gut. Ist aber nicht mehr besonders verbreitet. Empörung, das lieben die Leute und natürlich Hype. Enttäuschung mögen sie auch ganz gerne, aber nicht wegen der Ent- Täuschung sondern wegen der vorhergegangenen Täuschung. Bald ist der Weg frei, einfach zu glauben was man will, oder wenn man selbst dafür zu faul ist, einfach zu glauben, dass man belogen wird. Ohne irgendwelche Grundlagen braucht man ja auch nicht zu denken. Aber eigentlich wollte ich ja hier das ultimative Rezept gegen Fälschungen verkünden: einfach nicht glauben was man gerne hören möchte. Und immer auch das Gegenteil denken, nur so zur Sicherheit. Mehrheitsmeinungen sollte man generell mißtrauen. Einfachen Lösungen und Kausalitäten ebenso. Und dan gbt es ja noch Profis. Fälschungen werden eigentlich immer erkannt, nur oft haben Menschen daran nicht wirklich Interesse.

Mehr im Internet

© SPIEGEL ONLINE 2019
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung

TOP