Ces derniers mois, des clips audios surprenants ont envahi les réseaux sociaux et les plateformes de partage: on y entend la défunte reine Elizabeth réciter les paroles des Sex Pistols, ou encore l’ancien président américain George Bush interpréter «In Da Club» de 50 Cent.
Dans ces cas précis, on comprend rapidement que ces extraits musicaux sont faux. Cela est toutefois moins aisé dans le cas du nouveau titre de votre rappeur préféré ou d’un duo improbable entre une star à la retraite et la dernière idole des jeunes. Si vous les écoutez pour la première fois, comment savoir s’il s’agit d’une création authentique ou d’un deepfake audio?
Qu’est-ce qu’un deepfake audio?
Un deepfake audio (ou clonage de voix) est une voix synthétique générée par l’IA qui imite une voix humaine existante. Utilisant des algorithmes avancés et l’apprentissage automatique, ces techniques de clonage vocal peuvent reproduire la voix de presque n’importe qui, leur faisant dire, réciter ou chanter n’importe quel texte, soit de manière aléatoire, soit en imitant soigneusement leur style et leur intonation.
Les deepfakes audio peuvent être utilisés dans une multitude de contextes, allant du divertissement inoffensif à des fins plus malveillantes, comme le vol d’identité ou la fraude.
L’utilisation des deepfakes dans l’industrie musicale
L’industrie musicale a toujours été un terrain fertile pour l’innovation technologique. Depuis la première utilisation grand public de l’Auto-Tune dans le titre «Believe» de Cher, les enregistrements vocaux synthétisés ont gagné en popularité.
Grâce à leur polyvalence, les technologies de deepfake ont le potentiel de révolutionner l’industrie musicale. Elles peuvent aider un chanteur à atteindre des notes plus hautes, corriger des défauts vocaux, ou remplacer un mot sans nécessiter un nouvel enregistrement.
Elles offrent aussi la possibilité de traduire et chanter des chansons d’artistes célèbres dans n’importe quelle langue, sans que l’artiste n’ait à apprendre cette dernière. Elles peuvent être utilisées pour doubler les chansons d’artistes célèbres dans pratiquement n’importe quelle langue sans que l’artiste n’ait à l’apprendre, permettant ainsi une expansion mondiale rapide et une garantie d’adaptation à certains marchés.
Les clonages de voix pourraient même permettre de ressusciter les voix de chanteurs disparus, permettant à leur musique de perdurer sous de nouvelles formes et de préserver ainsi leur héritage musical.
Les défis juridiques de l’utilisation du clonage de voix
Outre les préoccupations éthiques qu’ils peuvent soulever, telles que l’atteinte potentielle à l’individualité et à la créativité artistique de l’interprète, les deepfakes audio ne sont pas sans risques juridiques.
Du point de vue des interprètes, l’utilisation de leur voix pour créer une chanson sans leur consentement peut constituer une violation de leurs droits exclusifs.
Premièrement, si l’artiste est également auteur des paroles ou compositeur, générer une chanson à partir de ses créations peut entraîner une violation de ses droits d’auteur. En outre, chaque interprète dispose en tant que tel de droits exclusifs, comme le droit de contrôler la fixation, la reproduction, la distribution et la communication au public de ses prestations.
Le simple fait d’extraire des centaines ou des milliers d’échantillons audio provenant de diverses sources pour entraîner un algorithme capable de générer un clone vocal peut, en soi, constituer une atteinte aux droits exclusifs de reproduction que l’artiste détient sur ses performances ou œuvres musicales.
Les droits d’auteur sur les œuvres musicales peuvent être détenus par les éditeurs de musique, tandis que les droits exclusifs des interprètes sont souvent contrôlés par les maisons de disques. Par conséquent, lors de la création d’un deepfake, il est crucial de vérifier la chaîne des droits afin d’éviter la mise en cause de toute responsabilité juridique.
Les artistes, qu’ils soient interprètes ou auteurs, bénéficient également de droits moraux. Ces droits, qui incluent le droit à la paternité de l’interprétation ou de l’œuvre et le droit de s’opposer à toute modification de leurs enregistrements ou œuvres pouvant porter atteinte à leur réputation, ne peuvent généralement pas être cédés par contrat dans l’Union Européenne, à l’exception notable du Luxembourg.
La voix est une caractéristique propre à chaque individu, et probablement l’une des plus distinctives de notre espèce. À ce titre, elle mérite une protection juridique particulière. Bien qu’il n’existe pas d’harmonisation spécifique au niveau de l’Union européenne, la voix est généralement protégée au titre du droit à l’image, que ce soit comme un droit autonome, tel qu’en Espagne, ou comme une extension du droit à la vie privée, comme au Luxembourg et en France. Quoi qu’il en soit, la protection de l’image, et par extension de la voix, doit être considérée comme un droit fondamental protégé. Cela confère au titulaire le droit de s’opposer à son utilisation et, dans certaines juridictions, la possibilité de révoquer une licence d’utilisation accordée, moyennant une compensation pour le licencié.
Par ailleurs, la voix est considérée comme une donnée biométrique protégée par le RGPD au niveau européen. Par conséquent, le traitement de la voix d’un artiste pour créer une reproduction artificielle, même à des fins apparemment innocentes, pourrait rencontrer la résistance de l’interprète. L’utilisation de données biométriques exige un consentement libre, spécifique, éclairé et non ambigu de la personne concernée, c’est-à-dire l’interprète. Cela implique que le créateur du deepfake doit informer clairement l’artiste que sa voix sera utilisée pour en générer une réplique par IA.
Le défaut d’obtention du consentement de l’artiste pour utiliser sa voix dans la création d’un clone numérique pourrait engager la responsabilité de la personne ou de l’entité à l’origine de la génération et de la diffusion du deepfake audio. Toute utilisation de la voix artificiellement générée d’un artiste nécessite donc une vérification rigoureuse des droits concernés, ainsi que des dispositions contractuelles soigneusement rédigées, couvrant l’entraînement de l’algorithme, l’utilisation de la voix et l’exploitation des résultats. Les maisons de disques et les éditeurs de musique devront probablement revoir de manière approfondie leurs contrats existants et leurs conditions générales s’ils souhaitent tirer parti de cette nouvelle vague de voix «talentueuses» générées par l’IA.
Quel rôle pour l’AI Act?
Il n’est pas surprenant de constater que les deepfakes, y compris les techniques de clonage vocal, sont abordés dans le Règlement (UE) 2024/1689, plus communément connu sous le nom d’AI Act. Ce cadre législatif classe les systèmes d’IA en fonction de leur niveau de risque, imposant moins de restrictions aux IA à faible risque et des obligations plus strictes, voire des interdictions totales, pour celles présentant une menace plus sérieuse pour les êtres humains. Les deepfakes peuvent être classés dans l’une ou l’autre de ces catégories, selon leur nature et leur usage potentiel ou réel.
Dans le cas des deepfakes audio que l’on pourrait rencontrer dans l’industrie musicale, ils relèvent généralement de la catégorie des IA à risque limité. Cela signifie qu’ils sont autorisés, mais soumis à des obligations de transparence: il doit être clairement indiqué que le contenu a été généré ou manipulé de manière artificielle.
Lorsque le deepfake audio s’intègre dans une œuvre ou un programme clairement artistique, créatif, satirique, fictif ou similaire, telle qu’une chanson générée par IA intégrée dans un clip vidéo, l’utilisation du deepfake doit être annoncé de manière à ne pas altérer la présentation ou l’appréciation de l’œuvre (par exemple, l’information pourrait être incluse sous forme d’avertissement dans le générique d’introduction).
Toutefois, les nouvelles dispositions de l’AI Act ne s’appliquent pas à tous les utilisateurs de l’IA. Les obligations de transparence ne concernent en effet que les «déployeurs», un concept qui désigne toute personne physique ou morale utilisant sous sa propre autorité un système d’IA sauf lorsque ce système est utilisé dans le cadre d’une activité personnelle à caractère non professionnel.
Ainsi, une maison de disques ou un éditeur de musique seraient considérés comme des déployeurs et devraient se conformer aux exigences de divulgation chaque fois qu’ils publieraient un nouveau tube comprenant des voix générées par IA, qu’il s’agisse des performances vocales de leur plus grande diva ou d’un talent récemment signé.
Et maintenant, quelle est la suite?
Avec le développement continu de l’IA, les répercussions et les opportunités pour l’industrie musicale sont potentiellement illimitées. Interprètes, éditeurs, maisons de disques, plateformes et autres acteurs du secteur peuvent tirer parti des multiples possibilités offertes par les techniques de clonage vocal, qu’il s’agisse d’innovations purement techniques, de la diffusion facilitée des œuvres de l’artiste, ou de la préservation de son héritage musical.
Cependant, au-delà des implications éthiques, les deepfakes audio posent des questions juridiques complexes, notamment en matière de propriété intellectuelle, de protection des données et de droits fondamentaux. Pour atténuer les risques juridiques, il sera nécessaire d’examiner attentivement la chaîne de droits sur les œuvres et performances, d’obtenir une autorisation complète relativement à l’usage des droits concernés, et de rédiger avec soin des dispositions contractuelles adaptées.
Par ailleurs, tous les deepfakes audio créés à des fins commerciales devront respecter les obligations de transparence imposées par l’AI Act.
Toutes ces questions doivent être minutieusement analysées par les parties concernées avant d’appuyer sur le Golden Buzzer et de valider l’utilisation d’un clone vocal créé par IA.
Envie d’en savoir plus sur le sujet? Ecoutez notre podcast.