Qu'est ce qu'une voix synthétique ?

Cette section propose une définition des voix synthétiques.
C'est sur celle-ci que nous allons appuyer l'ensemble du guide.

1

Définition

La voix synthétique, également connue sous le nom de synthèse vocale (TTS), désigne la technologie qui permet aux ordinateurs de convertir un texte écrit en mots parlés. Cette technologie est utilisée dans un large éventail d’applications, notamment les assistants virtuels, les outils d’accessibilité pour les personnes handicapées et les systèmes automatisés de service à la clientèle. Plus récemment elle s’est développée dans le champ du divertissement et de l’information.

Le processus de génération d’une voix synthétique le plus courant comporte plusieurs étapes. Tout d’abord, le texte à prononcer est analysé et décomposé en phonèmes individuels, c’est-à-dire les plus petites unités sonores d’une langue. Ces phonèmes sont ensuite mis en correspondance avec des échantillons vocaux préenregistrés, appelés unités vocales ou diphones, qui sont assemblés pour former la voix synthétique finale. La qualité de la voix synthétique est déterminée par la taille de l’inventaire des unités vocales et les techniques utilisées pour les combiner.

Les progrès récents de l’apprentissage automatique ont conduit au développement de modèles TTS basés sur l’apprentissage profond, tels que Tacotron 2 de Google et Deep Voice de Baidu. Ces modèles sont capables de générer une parole synthétique très réaliste en utilisant des réseaux neuronaux pour apprendre les modèles et les variations de la parole humaine.

La technologie de la voix synthétique présente de nombreux avantages potentiels. Elle peut être utilisée pour améliorer la communication des personnes handicapées, telles que les personnes sourdes ou malentendantes. Elle peut également contribuer à réduire le coût et la complexité de la création d’applications vocales, telles que les assistants virtuels et les outils de traduction. En outre, la voix synthétique peut être utilisée pour créer de nouvelles formes de divertissement et d’art, comme la musique et les contes.

Cependant, la technologie de la voix synthétique soulève également certaines inquiétudes. L’une des principales préoccupations est que la voix synthétique peut être utilisée pour se faire passer pour quelqu’un d’autre, potentiellement à des fins malveillantes telles que l’hameçonnage ou la diffusion de fausses informations. En outre, le réalisme croissant de la voix synthétique pourrait rendre difficile la distinction entre la parole réelle et la parole synthétique, ce qui pourrait entraîner confusion et méfiance.

Sonantic, racheté par Spotify, a permis de rendre sa voix à Val Kilmer, perdue à la suite d'un cancer de la gorge.

2

Exemples

Le nombre d’exemples de voix synthétiques ne cesse d’augmenter chaque jour, à mesure que de nouveaux créateurs viennent gonfler les rangs des pionniers. Vous trouverez donc de plus en plus d’exemples sur YouTube ou ailleurs.

À titre de référence, voici tout de même quelques créations comptant parmi les plus intéressantes.

SYNTHÈSE VOCALE

Val Kilmer retrouve sa voix

À la suite d’un cancer de la gorge, Val Kilmer, l’acteur de Tombstone et de Top Gun qui aura marqué de son empreinte l’histoire récente du cinéma américain, perd sa voix. Dans le cadre de la réalisation d’un documentaire biographique sur l’acteur, la société britannique Sonantic, spécialiste du traitement des émotions dans les voix synthétiques, a été chargée de reproduire quelques segments de voix. Le résultat est bluffant.

Conversation entre Joe Rogan et Steeve Jobs

Joe Rogan n’a jamais reçu Steeve Jobs dans son podcast, mais la rencontre a bel et bien lieu grâce aux deux voix de synthèse combinées à l’aide d’une IA recréant le dialogue entre les deux protagonistes. Certaines intonations semblent fausses et tombent à plat, mais la majeure partie de la discussion reste fluide et naturelle.

The Corridor Crew incarne différents acteurs

Exercice de style de la part de ce studio d’effets spéciaux habitué à produire des contenus catchy. Cette fois The Corridor Crew s’attache à recréer des voix d’acteurs et à les incarner. La voix de Morgan Freeman, profonde et chaleureuse, reste un must quand d’autres semblent encore peiner à coller parfaitement au modèle.

VOICE CLONING

Le 18 juin 1940, le Général de Gaulle s’adresse aux francais pour les appeler à resister à l’invasion allemande. L’appel du 18 juin ne sera jamais enregistré, le Monde.fr a reconstitué ce morceau historique avec le véritable texte. 

C’est l’IRCAM Amplify qui a développé cette technique de voice cloning où c’est en réalité l’ADN de la voix du général de Gaulle qui est échantillonné par l’algorithme qui va “étudier” des exemples de cette voix puis l’appliquer comme un masque sur la voix d’un acteur pour les faire se correspondre et emprunter les intonations et la musicalité.

 

Nixon et la course à la Lune

Dans cet exemple, c’est Nixon qui est campé par un acteur lors d’une reconstitution de l’annonce — qui n’a jamais eu lieu — de la mort des astronautes d’Apollo 11. In Event of Moon Disaster est une fiction dystopique qui se base sur le texte réel du discours rédigé dans l’éventualité que les astronautes restent coincés sur la lune après y avoir atterri.