Qu'est ce qu'un deepfake?

Cette section propose une définition des deepfakes.
C'est sur celle-ci que nous allons appuyer l'ensemble du guide.

1

Définition

Le terme deepfake désigne un type de contenu numérique, souvent un document vidéo ou audio, synthétisé ou modifié à l’aide d’un procédé reposant sur l’intelligence artificielle.

Cette manipulation repose sur l’emploi de G.A.N (réseaux adverses génératifs), une classe d’algorithmes d’apprentissage non supervisé structuré comme un réseau de neurones artificiel. Ceux-ci permettent de créer, sans employer de méthodes traditionnelles, des images (ou des sons) démontrant un fort de degré de réalisme.

On trouve par exemple, des deepfakes vidéo ou audio dans lesquels le visage ou la voix d’une personne provenant d’un document A est « greffé » numériquement sur un autre visage ou une autre voix dans un document B. Il en résulte que la ressemblance d’un individu peut-être transférée sur un autre individu.

L’objectif consiste à créer l’illusion la plus crédible possible pour tromper les spectateurs.

Il existe 3 grands types de deepfakes rencontré par le grand public:

    • Le faceswap (échange de visage): la forme rencontrée la plus courante qui consiste à greffer numériquement le visage d’un individu sur un autre.
    • Le lipsync (synchronisation des lèvres): qui permet de faire correspondre les mouvements labiaux d’une personne à des paroles qu’elle ne prononce pas.
    • Le puppeteering (l’effet marionnette): consiste à animer une vidéo d’une personne à l’aide des expressions faciales et corporelles d’une autre personne assise devant une caméra.

À cela viennent s’ajouter des types de manipulation d’images de synthèse plus confidentiels comme la manipulation de cartes géographiques 1Deepfake tech takes on satellite maps, TechCrunch, avril 2021 ou de radiographies 2CT-GAN: Malicious Tampering of 3D Medical Imagery using Deep Learning par exemple.

Christian Bale à gauche et Tom Cruise à droite (le faceswap) par Ctrl Shift Face

2

Éthymologie

Deepfake” est un mot-valise anglophone composé de deux autres mots. “Deep” pour deep-learning ou apprentissage profond en français faisant référence à la dimension technique du phénomène et “fake” pour faux ou contrefait en français qui rappelle son lien particulier avec la réalité.

Le terme “deepfake” a été traduit en français par l’Office québécois de la langue française en 2019 par hypertrucage. En France, c’est la Commission d’enrichissement de la langue française qui a traduit le 23 mai 2020, le terme deepfake par infox vidéo ou vidéotox 3Cf l’article précédent de journalism.design “videotox, pourquoi je n’utiliserai pas ce mot”. Pour en découvrir davantage sur les origines des termes “deep” et “fake” et ce qu’ils recouvrent, je vous renvoie à la lecture du mémoire “Deepfakes: Armes d’illusion massive”4 Chapitre 2.1.1 Fake news, deepfakes, médias synthétiques, p.61. Gerald Holubowicz (2019). Deepfakes, nouvelle arme d’illusion massive. DOI: 10.13140/RG.2.2.29923.48162 .

3

Exemples

Le nombre de deepfakes ne cesse d’augmenter chaque jour, à mesure que de nouveaux créateurs viennent gonfler les rangs des pionniers. Vous trouverez donc de plus en plus d’exemples sur YouTube ou ailleurs.

À titre de référence, voici tout de même quelques créations comptant parmi les plus intéressantes.

FACESWAP

Mel Gibson remplace Tom Hardy dans Mad Max: Fury Road (2015)

Sham00k rend hommage à l’acteur australien Mel Gibson, premier interprète de “Max Rockatansky” dans le film de George Miller de 1979 en le replaçant au cœur de l’action de Mad Max: Fury Road, le film sorti en 2015. Ici, il s’agit donc de remplacer un acteur par un autre acteur soit pour continuer un lignage iconique.

Soit pour réparer une “erreur” de casting dans le cas ci-dessous.

Tom Selleck remplace Harrison Ford dans Indianna Jones and the Temple of Doom (1984)

Tom Selleck apparait dans Indianna Jones et le Temple Maudit. Selleck était originellement pressenti pour incarner le célèbre aventurier archéologiste, mais son rôle dans la série Magnum P.I l’en a empêché.

FACESWAP DE-AGING

Robert Deniro rajeunit davantage dans la version originale de “The Irishman” sorti en 2019 sur Netflix.

Une autre utilisation du faceswap consiste à remplacer le visage d’un acteur par une version plus jeune ou plus âgée du même acteur.

David Hasselhof apparait plus jeune dans Access Live.

Chris Umé redonne à David Hasselhof une seconde jeunesse en remplaçant les traits de l’acteur par une version plus jeune de lui-même.

Cette interview de Jim Carrey montre le processus de faceswaping avec une base de données constituée de “jeune Jim Carrey”.

LIPSYNC

Les techniques à disposition pour réaliser un lipsync (une synchronisation labiale) sont complexes et requièrent un équipement adapté haut de gamme pour générer les fichiers vidéos. Quelques méthodes pas-à-pas permettent cependant de réaliser des lipsync sans forcément disposer d’un ordinateur dernier cri.

Le lipsync apporte au cinéma de nombreuses avancées notamment la synchronisation labiale dans le cadre de traductions. Flawless est une compagnie britannique spécialisée dans le lipsync et elle propose un service permettant précisément de faire correspondre les mouvements de la bouche d’un individu déjà filmé avec une bande audio non originale.

PUPETEERING

Le puppeteering consiste à manipuler une image à l’aide d’une capture des mouvements d’un puppet master (un marionnettiste). C’est-à-dire qu’une vidéo A va contrôler les mouvements d’une vidéo B.

Il est désormais possible de faire parler une personne en utilisant une image d’elle (quand quelques mois auparavant il fallait encore des centaines voire des milliers d’images de la personne en question). On peut également la faire danser ou se mouvoir comme on le souhaite. Les mouvements fins du visage sont également reproduits, les yeux suivent la direction du regard, les mouvements labiaux sont restitués presque parfaitement.