Mehr als jede vierte Deepfake-Stimme von Menschen nicht erkennbar

Menschen können mehr als ein Viertel der gefälschten Sprachproben nicht erkennen. Das ist das Ergebnis einer Studie des University College London, welche ein erhebliches Gefahrenpotenzial von Deepfakes offenbart.
Deep-Fakes sind vom Menschen nicht zuverlässig als solche erkennbar.
Deepfakes sind vom Menschen nicht zuverlässig als solche erkennbar.Foto: iStock
Von 2. August 2023


Deepfakes sind synthetische Medien, die der Stimme oder dem Aussehen einer echten Person ähneln sollen. Darin sind sie inzwischen so gut (oder schlecht), dass Menschen sie nur noch bedingt vom Original unterscheiden können.

In einer Anfang August in der Fachzeitschrift „PLOS ONE“ veröffentlichten Studie untersuchten Forscher des University College London, inwieweit wir in der Lage sind, diese zu erkennen, auch dann, wenn die Fake-Stimmen nicht in der Landessprache, in diesem Fall englisch, sprachen.

Deepfakes für jedermann

Deepfakes fallen in die Kategorie der generativen Künstlichen Intelligenz (KI), einer Art des maschinellen Lernens. Dabei wird ein Algorithmus darauf trainiert, die Muster und Merkmale, zum Beispiel eines Videos oder Audios einer realen Person, zu erlernen, sodass dieser den Originalton oder das Originalbild reproduzieren kann.

Während frühere Deepfake-Speech-Algorithmen Tausende Stimmproben einer Person benötigten, um den Originalton zu generieren, genügt den neuesten Algorithmen bereits eine einzelne nur drei Sekunden lange Aufnahme.

Außer gegebenenfalls einer Portion Neugier bedarf es dazu keiner besonderen Fähigkeiten: Open-Source-Algorithmen sind frei verfügbar und obwohl ein gewisses Maß an Fachwissen von Vorteil wäre, könnte eine Einzelperson sie innerhalb weniger Tage trainieren.

Und es geht noch einfacher: Das Technologieunternehmen Apple hat vor Kurzem eine Software für das iPhone und iPad angekündigt, mit der ein Benutzer eine Kopie (s)einer Stimme anhand von 15 Minuten Sprachaufnahmen erstellen kann.

Alte Algorithmen erschreckend gut

Auch die Londoner Forscher um Kimberly Mai von der Fakultät für Computerwissenschaften verwendeten einen Text-zu-Sprach-Algorithmus (TTS), der auf zwei öffentlich zugänglichen Datensätzen trainiert wurde. Unter Beachtung, dass die erzeugten Deepfake-Sprachproben sich von den Originalen unterschieden, erzeugten die Forscher jeweils 50 „künstliche Stimmen“ in Englisch und Mandarin-Chinesisch.

529 Teilnehmer erhielten anschließend die Aufgabe, echt von Fake zu unterscheiden. Dabei waren sie in 73 Prozent der Fälle in der Lage, die gefälschten Stimmen zu erkennen. Auch nach einem Training zur Erkennung von Aspekten der gefälschten Sprache verbesserte sich dieses Ergebnisse „nur geringfügig“.

„Unsere Ergebnisse bestätigen, dass Menschen nicht in der Lage sind, gefälschte Sprache zuverlässig zu erkennen, unabhängig davon, ob sie ein Training erhalten haben, das ihnen hilft, künstliche Inhalte zu erkennen oder nicht“, fasst Mai zusammen.

Es sei außerdem erwähnenswert, dass die Sprachproben „mit relativ alten Algorithmen erstellt wurden.“ Das werfe die Frage auf, ob Menschen (noch) weniger in der Lage wären, gefälschte Sprache zu erkennen, die mit der modernsten Technologie erstellt wurde, die heute und in Zukunft verfügbar ist.

Hunderttausende Euro Schaden – bei einem einzigen Anruf

Obwohl die generative KI Vorteile bietet, wie zum Beispiel eine bessere Zugänglichkeit für Menschen, deren Sprache eingeschränkt ist oder die aufgrund einer Krankheit ihre Stimme verlieren, wächst die Befürchtung, dass diese Technologie von Kriminellen und Nationalstaaten eingesetzt werden könnte, um Einzelnen und der Gesellschaft erheblichen Schaden zuzufügen.

Ihre nächste Aufgabe sehen die Forscher entsprechend in der Entwicklung verbesserter Erkennungsmethoden, um der Bedrohung durch künstlich erzeugte Audio- und Bilddateien zu begegnen, denn der Schaden, der damit angerichtet wurde, ist bereits jetzt unermesslich.

Zu den dokumentierten Fällen, in denen gefälschte Sprache von Kriminellen genutzt wurde, gehört ein Vorfall aus dem Jahr 2019, bei dem der Geschäftsführer eines britischen Energieunternehmens durch eine gefälschte Aufnahme der Stimme seines Chefs davon überzeugt wurde, Hunderttausende Pfund an einen falschen Lieferanten zu überweisen. Auch Regierungschefs fielen bereits auf gefälschte Stimme herein.

Mais Professor Lewis Griffin ergänzte: „Da die Technologie der generativen Künstlichen Intelligenz immer ausgefeilter wird und viele dieser Werkzeuge offen zugänglich sind, stehen wir kurz davor, zahlreiche Vorteile, aber auch Risiken zu erkennen. Regierungen und Organisationen sollten Strategien für den Umgang mit dem Missbrauch dieser Werkzeuge entwickeln, aber wir sollten auch die positiven Möglichkeiten erkennen, die sich am Horizont abzeichnen.“



Kommentare
Liebe Leser,

vielen Dank, dass Sie unseren Kommentar-Bereich nutzen.

Bitte verzichten Sie auf Unterstellungen, Schimpfworte, aggressive Formulierungen und Werbe-Links. Solche Kommentare werden wir nicht veröffentlichen. Dies umfasst ebenso abschweifende Kommentare, die keinen konkreten Bezug zum jeweiligen Artikel haben. Viele Kommentare waren bisher schon anregend und auf die Themen bezogen. Wir bitten Sie um eine Qualität, die den Artikeln entspricht, so haben wir alle etwas davon.

Da wir die Verantwortung für jeden veröffentlichten Kommentar tragen, geben wir Kommentare erst nach einer Prüfung frei. Je nach Aufkommen kann es deswegen zu zeitlichen Verzögerungen kommen.


Ihre Epoch Times - Redaktion