L'intelligence artificielle permet de cloner et de magnifier des voix humaines. Quel risque en matière de désinformation ou de cybercriminalité ? Quel danger pour les professionnels de la voix comme les chanteurs ou les comédiens ?
La possibilité de générer des voix hyper réalistes, existantes ou non, grâce à l'intelligence artificielle ouvre d'étonnantes perspectives. Par exemple : la possibilité de synthétiser des voix célèbres ou de doubler facilement des contenus vidéo. Cependant, cela soulève de nombreuses questions de propriété biométrique, de désinformation ou encore des risques de cybercriminalité.Les comédiens risquent-ils de se faire « voler » leur voix ? Devrons-nous un jour protéger notre voix ?
🎙 Rencontre avec Nicolas Obin, maître de conférence à Sorbonne Université et chercheur à l’IRCAM, spécialiste de l’analyse et de la synthèse du son.
Mots-clés : clonage vocal, cybercriminalité, doublage, droit, propriété intellectuelle, voix, synthèse vocale
Monde Numérique : Bonjour Nicolas Obin, vous êtes maître de conférence à Sorbonne Université, spécialiste de l'analyse et de la synthèse du son. Vous êtes également chercheur à l'IRCAM. Nous sommes à l'IRCAM, au centre de Paris. Est-ce que vous pouvez nous rappeler un petit peu avant toute chose, ce qu'est l'IRCAM et ce que vous y faites notamment ?
Nicolas Obin : Bonjour, oui, merci. Bienvenue à l'IRCAM. C'est un institut de recherche et de coordination acoustique musique qui a été créée sous l'impulsion de Pierre Boulez à la fin des années 70.
Monde Numérique : Grand compositeur de musique contemporaine.
Nicolas Obin : C'est ça. Et chef d'orchestre également, en parallèle ou de manière associée au Centre Pompidou. C'est un institut qui est dédié à la recherche pour la création musicale donc, et qui est quasiment unique au monde par ses missions et par son ampleur. À savoir que c'est l'un des seuls endroits au monde où on met ensemble, on fait cohabiter des musiciens, des artistes qui travaillent le son et des chercheurs scientifiques qui ont pour mission de les accompagner et de créer des nouveaux outils ou moyens d'expression sonore et musical.
Monde Numérique : C'est à dire qu'ici on invente des nouveaux instruments de musique, des nouveaux traitements et puis des systèmes de synthèse vocale qui est votre spécialité.
Nicolas Obin : Absolument., Alors, la voix est un enjeu stratégique depuis les débuts de l'IRCAM, depuis sa création pour les rapports à la voix chantée bien évidemment, mais aussi au langage. C'était une époque, comment dire, de questionnement ou de refondation du langage musical. Donc la linguistique intéressait particulièrement les compositeurs et donc la voix s'est imposée et est restée à travers les ans jusqu'à aujourd'hui. Et les intelligences artificielles modernes.
Monde Numérique : Nous y sommes. Nous y venons. L'intelligence artificielle au service de la voix et notamment de ce qu'on appelle le clonage vocal. Ce n'est pas nouveau, mais ça a fait des progrès considérables à toute vitesse, on a l'impression, Oui.
Nicolas Obin : Alors, c'est en parallèle avec tous les progrès spectaculaires qui ont été réalisés, avec ce qu'on appelle aujourd'hui les intelligences artificielles, générative en l'occurrence, mais en fait, sous ce terme, ce sont les intelligences artificielles modernes, à savoir des réseaux de neurones. Et depuis leur introduction, on va dire au milieu des années 2010, en 2015, il y a eu une accélération des recherches et des avancées technologiques dans tous les domaines, y compris celui de la voix. Et donc, dès 2018, les chercheurs de chez Google ont réalisé une première voix de synthèse qui était jugée aussi naturelle qu'une voix humaine par des êtres humains.
Monde Numérique : Mais c'était que le début.
Nicolas Obin : Pour faire ces voix. À cette époque-là, on avait besoin de 20 5 h d'enregistrement de la voix d'une personne. Aujourd'hui, on est assez loin de ça. Alors déjà, c'était. Comment dire. C'était une prouesse totalement incroyable parce qu’avant, on n'était même pas capable de faire des voix de synthèse. Elle était loin d'être naturelle, mais même avant, pas si longtemps, elle était peut-être même pas tout à fait compréhensible ou intelligible. On se souvient des anciens GPS par exemple. Voilà, aujourd'hui ce n'est plus le cas. Et donc, à partir de 2018, il y a eu ce premier, cette première bascule, on va dire, qui était qu'on arrivait à créer des voix de synthèse qui étaient perçues comme aussi naturelles que des voix humaines réelles. Mais il fallait beaucoup de données pour les.
Monde Numérique : Faire et aujourd'hui ça va beaucoup plus vite.
Nicolas Obin : Et aujourd'hui, donc effectivement, on a transité. L'enjeu aujourd'hui, c'est de réussir à faire la même chose. Donc, c'est ce qu'on appelle le clonage vocal. On n'apprend pas un réseau ou une intelligence artificielle à recréer une voix en particulier, mais on décompose le problème en deux parties. Une première partie va apprendre à générer de la voix humaine en général, donc à partir de bases de données de centaines, de milliers, de dizaines de milliers de locuteurs différents, librement accessibles et utilisables pour les apprentissages. Et ensuite, à partir de ce ce qu'on appelle un pré apprentissage, on va adapter l'intelligence artificielle pour lui faire prendre le timbre et éventuellement la prosodie d'une personne en particulier. Et donc là, on essaye de faire en sorte qu'on a besoin du minimum de données possible pour faire ce transfert.
Monde Numérique : Alors il y a plusieurs façons de faire. En fait, il.
Nicolas Obin : Y a deux technologies qui existent. Il y en a une qui s'appelle le text to speech, synthèse de parole à partir du texte où là on tape un texte et la voix de synthèse sort. Qui dit prononce effectivement le texte donné. Il y a une autre technologie qui existe, c'est la conversion de voix où là on prend une voix déjà existante et on va en modifier les propriétés, la manipuler pour la faire sonner éventuellement comme la voix de quelqu'un d'autre. Ces deux technologies ont eu, comment dire, des directions de recherche qui ont convergé avec le temps, et c'est à peu près aujourd'hui les mêmes algorithmes qui permettent d'être utilisés pour l'un ou pour l'autre. Mais le principe, effectivement, c'est qu'on apprend qu'est-ce que c'est une voix humaine, comment on parle, etc. Et l'avantage, c'est qu'au lieu d'utiliser une voix de 25 h, on peut utiliser aujourd'hui le maximum qu'on ait à disposition pour apprendre des voix de synthèse. C'est environ 60 000 heures. Donc c'est des milliers de locuteurs différents. Donc on apprend la variabilité pas seulement d'une voix, mais d'un ensemble de voix et possiblement. Étendre ça à du multilingue, donc apprendre dans des langues différentes également. Alors ça paraît énorme. Mais en fait c'est aussi extrêmement petit. Parce que par comparaison, si vous prenez les autres intelligences artificielles générative comme chatGPT, l'une des dernières versions a utilisé 50 milliards de mots pour apprendre à générer du texte et Dali qui est la version pour générer des images, utiliser environ plusieurs dizaines de millions d'images. Donc 50 milliers d'heures ou 60 milliers d'heures à côté, ça reste relativement peu.
Monde Numérique : C'est pas grand-chose finalement. Ce qui veut dire que ce qui explique que les bonds de géant qui ont été faits récemment et avec surtout des outils qui sont de plus en plus accessibles, il y a les outils de Microsoft, il y a Eleven Labs qui a beaucoup fait parler de lui, qui est accessible librement à tout un chacun. Sur le web, il y a Raskin, il y a Murph, etc. Tout ça, ce sont des IA qui fabriquent de la voix à la demande.
Nicolas Obin : Oui, alors c'est ça le changement qui a lieu actuellement et qui inquiète d'ailleurs ou qui préoccupe autour des intelligences artificielles, c'est que non seulement à travers la grande quantité de données qui est utilisable pour les apprentissages et évidemment les améliorations des algorithmes, même on est capable de générer des données qui sont très semblables à celles qu'un humain pourrait générer lui-même, que ce soit du texte, de l'image ou de la voix. Et donc ça, c'est la première. Le premier point, c'est la qualité du rendu actuel est devenu très spectaculaire et indiscernable quasiment d'une production humaine. Et de l'autre côté, c'est qu'en fait ces outils se sont aussi démocratisés, c'est à dire qu'à peu près n'importe qui aujourd'hui peut soit utiliser des outils qui ont été prés entraînés pour ses propres besoins, soit carrément avec un peu plus de connaissances. Un geek, pouvoir faire ses propres réapprentissages ou apprentissages.
Monde Numérique : Qu'est ce qu'il faut? De la puissance machine avant tout, Avant toute chose.
Nicolas Obin : Oui, aujourd'hui on a quand même encore besoin de. Comment dire, Un ordinateur personnel n'est pas suffisant pour faire ce genre d'apprentissage. Est-ce que ça coûte cher?
Monde Numérique : En fait.
Nicolas Obin : Ça dépend comment.
Monde Numérique : On le fait.
Nicolas Obin : On tourne. Le problème parce que si c'est pour générer des voix d'une personne dont on ne va plus payer les droits d'auteur par la suite.
Monde Numérique : On va en parler. Ça, c'est un des aspects très intéressants, très importants. Mais en termes.
Nicolas Obin : De énergétique, oui, c'est extrêmement coûteux. Il y a des puissances de calcul qui sont démesurées pour faire des tâches qu'un être humain, par exemple, il me semble, il faudrait vérifier, Mais par exemple, la puissance d'un cerveau, c'est environ 40 watts. Quand les puissances demandaient de ressources pour apprendre, des intelligences artificielles sont, comment dire, incommensurablement plus gourmandes en énergie et en données.
Monde Numérique : Alors on va parler un petit peu des dérives, des effets pervers, enfin des problèmes que ça pose. Mais avant cela, voyons le côté du verre à moitié plein, tout, tous les champs des possibles que ça ouvre, ça permet et ça laisse envisager plein d'applications nouvelles.
Nicolas Obin : Alors oui, et dont une grande partie reste probablement à inventer, j'ai envie de vous dire mais alors nous, effectivement, notre rôle à l'IRCAM, c'est de produire de nouveaux moyens d'expression qui vont accompagner l'artiste et augmenter ses possibilités créatives. Et l'un des artistes qui est concerné au premier chef aujourd'hui par ces avancées, ce sont les comédiens voix eux-mêmes, les acteurs, les comédiens. Nous travaillons pour créer de nouveaux moyens d'expression pour eux et en l'occurrence, pour étendre leurs capacités vocales. Donc là, l'une des directions de recherche que nous visons, c'est d'être capables de réaliser des voix de synthèse parlée ou chantée, qui ont des capacités qu'un être humain ne pourrait pas réaliser lui-même. Donc c'est un peu dépasser les limites humaines, physiques ou autres. Un exemple nous avons travaillé récemment sur un film, La mue de l'artiste Judith Deschamps qui recrée la voix du castrat Farinelli. Alors on avait. C'était assez amusant parce qu'on avait travaillé sur Farinelli pour le film de Gérard Corbiau dans les années 90, avec des moyens tout autres.
Speaker3: Et.
Nicolas Obin : Avec aussi une esthétique visée qui était totalement différente. Et là, dans le qu'avait.
Monde Numérique : Déjà fait pardon, ça avait déjà fait beaucoup de bruit cette constitution, reconstitution de la voix de Farinelli.
Nicolas Obin : Alors, qui est à la fois imaginaire puisqu'on n'a pas de castrat sous la main pour vérifier la couleur et la tessiture. Mais on a des écrits. Rappelez-nous de.
Monde Numérique : Quelle époque ça date?
Nicolas Obin : Du XVIIIᵉ siècle. Comment. Et donc aujourd'hui, on a reconstruit un castra artificiel avec un réseau de neurones, mais avec cette idée de lui donner une tessiture qu'un être humain qui est inatteignable par un être humain par exemple, je ne sais pas, je vous dis douze octaves de chant, de hauteur, de chant avec une couleur énorme. Ah oui, c'est énorme ! Un être humain est incapable d'avoir une telle tessiture vocale et avec une couleur et un naturel qui continuent à sonner comme une voix humaine chantée.
Monde Numérique : Donc vous inventez des voix qui n'existent pas.
Nicolas Obin : Nous avons tout un ensemble de recherches pour reprendre, corriger, manipuler des enregistrements de comédiens déjà déjà enregistrés pour lequel, par exemple, on voudrait remodifier a posteriori. Donc on imagine dans un dans une production cinématographique, on a fait une prise comédien voix, puis on se rend compte où le directeur artistique ou le réalisateur se rend compte que cette prise n'est pas satisfaisante. Le comédien n'est pas disponible, il est déjà parti sur un autre projet. Ça peut être éventuellement une personnalité encore plus compliquée à faire revenir en studio. Donc on pourrait imaginer redessiner localement sa voix, avec son accord bien entendu, pour pouvoir reprendre une expression, une intention, une expressivité vocale.
Monde Numérique : Est-ce qu'on arrive véritablement? Alors on est toujours étonné des progrès qui sont faits par rapport à ce qui existait avant, etc. Malgré tout, pour avoir testé quelques-uns de ces outils qui sont fantastiques, certes, mais on a l'impression qu'il manque toujours quelque chose. C'est à dire que par exemple, un doublage d'une personne avec sa propre voix va être très intéressant au niveau de la compréhension, s'il parle dans une autre langue, etc. Mais on a l'impression qu'il parle tout seul mais qu'il ne parle pas à quelqu'un. Il manque un petit côté un peu émotionnel en fait.
Nicolas Obin : Oui, émotionnel, mais ça va beaucoup plus loin que ça. Les IA aujourd'hui pour générer des voix sont apprises à partir de phrases isolées. Donc il n'y a ni contexte, comment dire, narratif ou discursif et encore moins d'interlocuteurs. Donc c'est ce qui fait à juste titre que les voix que vous entendez vous paraissent relativement monotones. Alors quand on a des interactions rapides, par exemple avec un téléphone et une voix de synthèse qui dit une phrase, deux phrases, on ne s'en rend pas compte à partir du moment où on veut aller vers des textes plus longs, un livre audio, un film au cinéma. Là, l'artefact devient franchement audible et gênant puisqu'en fait ça limite les interactions ou en tout cas l'engagement du spectateur qui détecte qu'il y a de la monotonie ou qu'il y a un artefact qui lui fait percevoir que la voix qu'il entend n'est pas absolument humaine ou naturelle.
Monde Numérique : Bonjour, c'est la voix clonée de Jérôme Colombain. Vous écoutez le podcast Monde numérique consacré au clonage vocal, Un sujet incroyable. Je reçois Nicolas Obin de l'IRCAM pour parler des possibilités et des risques de cette technologie.
Nicolas Obin : Et donc il y a à la fois prendre en compte la structure narrative d'un texte, par exemple l'enchaînement des phrases les unes après les autres, où effectivement le contexte, et là ça ressort de l'interprétation du comédien. Et c'est là où l'intelligence artificielle ne se substitue pas, ou peut-être ne substituera jamais ou encore longtemps à l'interprète. C'est que l'interprète, il est capable de prendre toutes les informations du contexte. Quand on joue une scène au cinéma par exemple, pour décider d'une intonation ou d'une expressivité donnée, l'IA n'a pas encore cette perception ou cette compréhension du contexte qui est nécessaire pour l'interprétation.
Monde Numérique : Oui, faire passer je sais pas quoi de la tristesse, de la moquerie.
Nicolas Obin : Alors là, il y a ce contexte direct qui serait celui de la scène par exemple, mais aussi le contexte culturel qui est qu'en fait on est à un moment donné dans une histoire avec des écoles d'interprétation, etc. Et qui est encore cette connaissance humaine a priori? Et cette histoire de l'évolution des techniques, y compris vocales, est totalement absente des intelligences artificielles.
Monde Numérique : Mais est ce qu'on y arrivera un jour?
Nicolas Obin : Nicolas Obin C'est une excellente question à laquelle je n'ai pas de réponse. J'ai envie de vous dire c'est. La question n'est jamais tant de savoir quand est ce qu'on arrivera ou quand est ce que l'intelligence artificielle arrivera à reproduire tel ou tel comportement humain. Mais la question c'est plutôt de savoir pourquoi en faire et donc dans quelle intention et pour qui.
Monde Numérique : Alors oui, même si ce sont des questions légitimes mais qui ne guide pas toujours l'innovation malgré tout, puisqu'on voit que ces outils, par exemple, ont été développés et permettent aujourd'hui de faire des choses fantastiques. On le disait créer des nouvelles voix. Vous avez créé ici à l'IRCAM, je crois, vous avez reconstitué la voix du général de Gaulle il y a quelques temps pour un document historique qui n'existait pas. C'était l'appel du 18 juin qui, en fait n'a pas été enregistré. Vous l'avez reconstitué. Il y a des tas de choses, des perspectives en termes de doublage, de films, de contenus, de podcasts, de vidéos. YouTube a annoncé bientôt du doublage en temps réel grâce à. Je déroule mes Samsung. Google commence à mettre dans leurs smartphones des systèmes qui peuvent répondre automatiquement à des appels non sollicités mais avec notre propre voix, etc etc. Mais, mais il y a toutes les dérives qu'on voit apparaître à toute vitesse, donc les deepfakes, la désinformation, les activités criminelles, la fraude des fausses demandes, des fausses prises d'otage avec demande de rançon, etc. Et puis on y vient et je viens à ma question. Les questions un peu plus métier de liées au travail des comédiens, des comédiens se sont fait voler leur voix récemment. Ils avaient été sollicités pour enregistrer des phrases, un petit travail payé pas très cher et en fait, visiblement, c'était pour alimenter des bases de données qui demain permettront à des créateurs, des réalisateurs de films de se passer d'eux. En fait.
Nicolas Obin : Avec toute nouvelle technologie, il y a d'un côté des nouvelles opportunités qui peuvent se créer. Mais effectivement, il y a aussi, toujours dans l'autre côté de la balance, des risques qui sont associés d'usages malveillants, détournés, etc. Alors, dans le cadre des intelligences artificielles pour la création de voix, effectivement, il y a un double risque. Il y a à la fois un risque de l'ordre de la biométrie des données personnelles, par exemple usurper l'identité d'une personne grâce à cette technologie.
Monde Numérique : Pour s'authentifier sur un site bancaire par exemple. Il y a déjà eu des suspicions.
Nicolas Obin : De phishing pour soutirer de l'argent en se faisant passer pour le PDG d'une entreprise, etc.
Monde Numérique : L'arnaque au président? Absolument.
Nicolas Obin : Et la désinformation à travers les deepfakes. Voilà, ça c'est quelque chose qui est assez relativement connu par tout le monde aujourd'hui. L'autre côté, effectivement, il est plus original et en fait il est apparu avec le boom des intelligences artificielles dont GPT qui a créé une grève. C'est l'une des premières historiques où à Hollywood, on a des grèves des scénaristes qui font. L'un des points de préoccupation était justement tout ce qui tournait autour des intelligences artificielles générative.
Monde Numérique : Qui s'est réglé il y a peu de temps et qui a duré très longtemps tout.
Nicolas Obin : À fait, qui s'est réglé en partie avec les scénaristes. Mais les comédiens eux mêmes sont toujours se sont rajoutés à ces préoccupations. Donc c'est l'uva l'Union Voice Artists qui est un rassemblement des comédiens voix du monde entier et qui ont justement qui sont venus, qui ont écrit des textes justement pour exprimer également leurs préoccupations sur le non contrôle des intelligences artificielles, dans le cadre justement où l'impact que peut avoir l'intelligence artificielle générative dans le cadre de leur métier. Est-ce que.
Monde Numérique : Les comédiens, notamment spécialisés dans le doublage, sont menacés? Alors?
Nicolas Obin : En partie, mais ça fait l'objet d'une discussion. Alors, on peut discuter longuement sur, justement, on discute sur les possibilités. Un doublage, c'est pas une traduction littérale, c'est comme quand on traduit un texte littéraire. Il y a justement une mise en contexte culturel et sociétale et la prise en compte d'un contexte qui n'est pas encore accessible aux intelligences artificielles. Mais peut être demain. Mais effectivement, il y a tout avant de, comment dire, de remplacer les métiers, ce qu'on ne souhaite pas. Nous à l'IRCAM, on travaille pour créer des outils qui sont des outils d'aide ou d'assistance à la création. Donc c'est c'est une collaboration si vous voulez, oui, une collaboration et une coévolution aussi entre l'humain, l'artiste et la machine vue en tant qu'outil d'aide, même intelligent, mais un outil d'aide. Donc c'est un super outil. C'est un pinceau par exemple, qui vous fait des propositions éventuellement de continuation pour pour de la peinture sur des textures, etc. Mais ça reste un outil. Voilà, vous faites.
Monde Numérique : De l'IA éthique entre guillemets.
Nicolas Obin : Alors effectivement, oui, nous on se tient, on a des demandes en fait de recréation de voix depuis environ 30 ans. Donc on a eu le temps de se poser les questions éthiques autour du clonage vocal, de la recréation de voix, etc.
Monde Numérique : Mais comment vous pouvez résoudre ce problème si demain le marché du cinéma va vers la voix de synthèse pourrait être les seuls dans votre coin à ne pas en faire? Ça ne changera pas grand-chose je dirais.
Nicolas Obin : Nous faisons de la voix de synthèse, mais justement, déjà il y a nous, nous respectons, Il y a un arsenal législatif qui existe en Europe, que ce soit pour la biométrie, avec le RGPD ou que ce soit partiellement aujourd'hui. C'est ça qui est l'objet de discussion avec l'IA, acte qui a été donc créé à l'Union européenne, je ne sais plus l'année, mais.
Monde Numérique : Qui est encore en discussion, mais qui avance.
Nicolas Obin : Et qui essaye de faire de premières propositions pour protéger justement les artistes et les comédiens sur les usages des intelligences artificielles. Parce qu'il faut savoir dire les comédiens vont être remplacés, ce sont des données, donc ils font des enregistrements et c'est. Enregistrement. Je vous ai expliqué tout à l'heure, les données sont comment dire ? C'est l'essence nécessaire pour réaliser des apprentissages. Donc sans données, pas d'intelligence artificielle et des données pour ces intelligences artificielles, il en faut en très très grandes quantités. Et donc aujourd'hui, justement avec un GPS. Qui peut aspirer à priori sans sans déclarations contraires explicites de tel ou tel site, peut aspirer tous les contenus textuels disponibles sur Internet. Donc, et on voit petit à petit qu'il y a des des institutions, des organismes qui qui, qui utilisent ce qu'ils appellent le opt out, qui fait qu’eux, ils veulent retirer leurs données de cet ensemble d'apprentissage. Et en fait, ces données, non seulement ça serait bien qu'il y ait le consentement explicite des personnes qui sont concernées, mais après il y a tout un ensemble de droits qui s'y appliquent, que ce soit du droit d'auteur, du droit à l'image et à la voix. Parce que le droit à la voix ressort au moins en France, des mêmes règles que celui du droit à l'image, etc etc.
Nicolas Obin : Et ça, ça s'applique non seulement pour les voix qu'on recrée en sortie des algorithmes, parce que dans la législation, il distingue les entrées et les sorties des IA. Donc la sortie c'est la partie visible de l'iceberg, c'est celle qu'on voit quand on à recréer la voix de telle ou telle personne, par exemple le général de Gaulle. Mais en entrée je vous ai dit caché la partie immergée de l'iceberg. Il y a toutes ces voix, ces dizaines de milliers de voix qu'on a utilisées et dont peut être nous faisons partie. Il est peut-être en premier lieu également les comédiens, mais sans en être informés, sans notre consentement et encore moins sans payer les droits d'auteur qui pourraient y être attachés. En fait, les comédiens voix, comment dire, dans l'expression de leurs préoccupations autour de l'IA, ce n’est pas que d'être remplacés à la fin ça. Ils arriveront certainement à trouver des négociations justement sur comment dire, avoir un pourcentage d'humain dans la création. Et puis de toute façon, ce ne sera peut-être même pas faisable techniquement, mais c'est surtout toute cette chaîne en amont qui arrive jusqu'à la création des voix artificielle et de protection de leurs droits d'auteur.
Monde Numérique : Donc la question c'est comment protéger sa voix pour éviter qu'elle n'aille alimenter des IA qui demain feront des choses soit dont on a besoin, soit pour me voler mon métier? Absolument.
Nicolas Obin : Et ça concerne aussi bien les artistes dans leur droit d'auteur et de création, mais nous aussi en tant que citoyens sur le droit à nos données personnelles, etc. Donc là, c'est sous le coup du RGPD.
Monde Numérique : Demain il faudra que nous tous on protège nos notre voix.
Nicolas Obin : Alors c'est oui, probablement. Mais alors comment ça c'est la question ?
Monde Numérique : C'est la question que je vais vous poser en plus.
Nicolas Obin : Parce que aujourd'hui, les données qui sont utilisées pour les apprentissages, en fait, elles sont par les entreprises qui créent ces algorithmes. On ne les connaît pas, elles ne sont pas publiées, elles ne sont pas déclarées et donc on ne se base que sur la bonne foi des entreprises.
Monde Numérique : C'est comme pour l'entraînement des IA qui fabriquent du texte ou qui fabriquent de l'image. Ce n'est pas à partir de quoi elles se sont entraînées. Il y a peut-être dedans des œuvres d'art protégées par des droits intellectuels, etc. Tout à fait, tout à fait.
Nicolas Obin : Et c'est certainement le cas puisque de toute façon, les données, quand la quantité et la qualité de données qui sont utilisées en entrée donnent un avantage stratégique aux entreprises, plus les entreprises ont des qualités de pardon, ont des données en grande quantité et en qualité également plus en sortie, elle va avoir un outil qui va être spectaculaire, etc. Donc plus il aura tendance à prendre l'avantage sur sur d'autres IA qui feraient des choses similaires.
Monde Numérique : C'est à dire que par exemple, un comédien aujourd'hui à qui on demande un travail d'enregistrer des voix, etc. A intérêt à demander des garanties et à inclure d'ores et déjà cette protection.
Nicolas Obin : Je ne suis pas, je ne suis pas dans le métier. Mais effectivement, il y a des recommandations sur l'ajout de certaines parties contractuelles directement sur l'utilisation, le cadre d'utilisation restreint de leur voix justement par rapport aux utilisations des intelligences artificielles. Alors le problème, c'est qu'il est un peu rétroactif, c'est qu’avant on ne connaissait pas ces usages parce que les intelligences artificielles ne faisaient pas grand-chose ou n'étaient pas, comment dire, opérationnelles. Mais aujourd'hui c'est le cas et donc il y a des contrats qui ont été signés par le passé, qui ne faisaient pas mention à ces usages potentiels. Et donc là il y a une zone de flou, probablement.
Monde Numérique : Alors, ça, c'est pour la protection du droit d'auteur, enfin, je sais pas si on peut parler de droit d'auteur, mais le droit de propriété, de biométrie, de protection biométrique maintenant pour tout ce qui est utilisation à des fins criminelles, par exemple des fausses, des escroqueries, des choses comme ça. Est-ce que techniquement, demain il sera possible de détecter une fausse voix, une fausse voix, de la même manière que l'IA peut en fabriquer ? Est ce qu'elle sera capable de la reconnaître, de reconnaître qu'il s'agisse d'une fausse ?
Nicolas Obin : Ma réponse Une autre question que vous avez posée. Sur la protection de sa voix, c'est qu'il existe des techniques aujourd'hui qu'on appelle tatouages ou watermarking en anglais et qui permettent d'insérer dans un contenu audio, vidéo ou autre un tatouage qui est non visible ou non perceptible par un être humain, visuellement ou auditivement, mais que l'on peut retrouver automatiquement avec un algorithme. Et donc ce tatouage, on le met en amont, par exemple pour certifier de l'authenticité d'un contenu ou pour certifier que c'est ma voix. Par exemple. Et dans toute la chaîne de transmission de l'information en télécommunication, ce tatouage est censé être préservé et pouvoir être dans n'importe quelle utilisation finale, même transformée ou ultra transformée par des intelligences artificielles peut être retrouvée pour remonter la chaîne de dire voilà ma voix ou ma donnée a été utilisé pour produire tel ou tel résultat.
Monde Numérique : Du watermarking comme pour les images.
Nicolas Obin : Mais ça existe aussi pour le Pour le son, c'est le même principe.
Monde Numérique : Donc ça c'est un mode de protection, c'est.
Nicolas Obin : Un mode de protection. Mais en fait aujourd'hui c'est un sujet de recherche à part entière. Et donc en fait, si on veut protéger les données, soit on essaye de le faire en amont. Comme je le dis, en tâtant les données dès le début de la chaîne de captation d'acquisition des données pour certifier l'authenticité et éventuellement mettre l'information de la personne à laquelle la donnée appartient. Et puis après cette. Ce tatouage est préservé tout au long de la chaîne de transmission jusqu'à la réception. Mais de l'autre côté, si on n'a pas de tatoué, on peut essayer éventuellement de remonter et ça c'est beaucoup plus difficile à partir d'une sortie générée, de remonter l'intelligence jusqu'aux données qui ont été utilisées pour apprendre à gérer.
Monde Numérique : Les sources en quelque sorte.
Nicolas Obin : Alors ça, ça me paraît beaucoup plus complexe comme problème à solutionner, mais c'est une possibilité également. Et en l'occurrence pour la détection des deepfakes par exemple, pour l'usurpation d'identité, bah c'est plutôt en amont qu'on va en aval, qu'on va se positionner. Donc on a une vidéo qui est un contenu audiovisuel qu'on, qu'on voit, et il faut être capable de décider est ce qu'il est authentique ou non ? Et donc là il y a des comment dire, il y a, c'est tout un champ de recherche sur justement en cybersécurité, pour être capable de détecter automatiquement des deepfakes, c'est à dire des des vidéos hyper truquées à des fins malveillantes.
Monde Numérique : Dernière question est ce que face à ces avancées, vous êtes aujourd'hui inquiet? Je dirais c'est vertigineux ou fasciné par les possibilités qui s'offrent à vous ?
Nicolas Obin : Alors, en tant que chercheur, on essaye de. J'essaye de rester rationnel, donc ni trop inquiet, ni trop fasciné. Moi je fais de la recherche pour essayer d'améliorer de la connaissance humaine ou de proposer des outils qui vont permettre d'améliorer la vie dans la société, dans le monde, etc. Et en l'occurrence là, la créativité ou les capacités créatives des artistes en tant que personnes, effectivement. Bah je ne suis à la fois pas fasciné mais c'est toujours pareil. On est excité en plus parce que c'est les débuts, donc il y a une espèce de grande émulation autour des intelligences artificielles générative. Nous ça fait 40 ans qu'on travaille dessus, on n'appelait pas ça comme ça et ça ne marchait pas bien, mais on travaillait quand même dessus. On continuera à travailler dessus demain. Les trois pères fondateurs de l'intelligence artificielle moderne que sont Yann Lecun, Geoffrey Hinton et Joshua Bengio, deux d'entre eux se sont associés justement pour avertir et essayer d'agir, pour réglementer au mieux et le plus rapidement possible l'usage et le développement des intelligences artificielles. Oui, il y a.
Monde Numérique : Les inquiets Geoffrey Hinton et Joshua Bengio. Et puis l'optique maoiste Yann Lecun, tout à fait français, qui lui garde le cap. Voilà, Merci beaucoup. Nicolas Obin, spécialiste de l'analyse et de la synthèse de la voix et du son à Sorbonne Université et à l'IRCAM. Merci.