Patrick Pérez:
[
0:01] Est-ce que la synthèse vocale peut se faire en même temps que le texte arrive ? Imaginons que le texte arrive et sorte d'un LLM, justement, qui peut cracher le texte assez vite.
Patrick Pérez:
[
0:13] Est-ce que la synthèse peut se faire à la volée ? La réponse est oui,
Patrick Pérez:
[
0:17] nous le faisons à la volée. Et c'est ça qui nous a permis de faire une autre IA vocale conversationnelle qui s'appelle Unmute, où il y a au milieu un modèle textuel, et la réponse du modèle textuel elle est à la volée, instantanément en temps réel, transformée en voix.
Monde Numérique :
[
0:39] Bonjour Patrick Pérez.
Patrick Pérez:
[
0:41] Bonjour.
Monde Numérique :
[
0:42] Merci de me recevoir ici au siège de Kyutai à Paris.
Patrick Pérez:
[
0:45] Bienvenue.
Monde Numérique :
[
0:46] Kyutai, lancé en 2023, c'est un centre de recherche sur l'intelligence artificielle. C'est quoi exactement un centre de recherche en IA et Kyutai en particulier ?
Patrick Pérez:
[
0:57] Alors oui, c'est un laboratoire tout simplement de recherche, mais qui a un certain nombre de caractéristiques qui le rendent assez unique en Europe au moins. C'est d'être à but non lucratif. Il a été fondé grâce à du mécénat privé.
Monde Numérique :
[
1:13] Xavier Niel, Rodolphe Saadé et Eric Schmidt, ancien CEO de Google.
Patrick Pérez:
[
1:20] Absolument. Du coup, c'est sur fond privé, un laboratoire indépendant et qui a pour mission de faire de la recherche plutôt amont sur des grands modèles. On y reviendra, je pense, sur un type d'IA qui est très technique et qui demande des ressources importantes, d'où le besoin d'avoir une forte dotation initiale. Et avec pour mission de faire avancer la recherche en IA sur un certain nombre de sujets et de partager les résultats de cette recherche avec une vocation forte d'ouverture, de partage de la connaissance et des résultats de la recherche, ce qu'on appelle des modèles dans notre jargon et puis le code, des programmes qui permettent de les faire tourner ou de les modifier. Donc c'est ça l'idée ? De fait, c'est quelque chose de vraiment une aventure assez unique, qui nous occupe depuis un peu moins de deux ans et je dois dire qu'on ne s'ennuie pas.
Monde Numérique :
[
2:20] Combien de chercheurs ?
Patrick Pérez:
[
2:21] Alors, on a démarré à 6 avec l'équipe fondatrice initiale et désormais, l'intégralité du labo compte à peu près 25 personnes. Donc, il y a des chercheurs, il y a des ingénieurs.
Monde Numérique :
[
2:34] Qui sont tous des gros cerveaux de l'IA, on va dire.
Patrick Pérez:
[
2:37] C'est des gens très bien formés, très motivés et très forts. On est très exigeants sur les recrutements. Il y a également évidemment des fonctions support. Et puis, on a des jeunes gens très, très brillants qui sont chez nous en stage, en thèse. Puisqu'une autre des choses qui nous tient beaucoup à cœur, mais c'est lié à la mission d'ouverture et de contribution à l'écosystème, c'est de contribuer à former à notre échelle, parce qu'on est un petit labo, Donc voilà, de former au meilleur niveau des futurs chercheurs, des futurs ingénieurs, peut-être des futurs entrepreneurs, on espère aussi.
Monde Numérique :
[
3:11] Alors, on va parler en détail des différentes choses que vous avez développées ces dernières années, notamment dans le domaine de la voix, etc. Mais avant ça, vous le disiez, vous êtes un petit labo et aujourd'hui, la course à l'IA, c'est un truc de géant, en fait, où des mastodontes se battent à coups de dizaines, centaines de millions, des milliards de dollars. Comment est-ce qu'on peut trouver sa place dans cet écosystème et dans cette compétition ?
Patrick Pérez:
[
3:39] Alors, on peut trouver sa place peut-être en faisant les choses différemment. Je crois qu'il faut, évidemment, vous avez raison de le dire, il y a une accélération et une compétition entre des titans. Après, il ne faut pas oublier David et Goliath. Et par ailleurs, il y a un certain nombre d'innovations, Et y compris au sein des grandes organisations, qui peuvent émerger de petites équipes au sein des grandes organisations et des grandes entreprises.
Patrick Pérez:
[
4:12] Il faut faire aussi attention, quand on parle de l'IA, qui est à la fois une industrie, un ensemble de technologies et aussi un domaine scientifique, à faire la part des choses entre ce qui est consacré à la recherche et ce qui est consacré aux produits.
Monde Numérique :
[
4:29] Oui, voilà, tout à fait. Et vous, vous ne faites pas de produit ?
Patrick Pérez:
[
4:31] Nous, on ne fait pas de produit. On est entièrement consacré sur la recherche, c'est-à-dire qu'on fait avoir sa connaissance en développant et en expérimentant des prototypes. Et ceux qui sont concluants, on les partage, mais on n'opère pas, on ne déploie pas de produit ou de service.
Monde Numérique :
[
4:48] Vous n'allez pas lancer un ChatGPT ou un Le Chat disponible pour tout le monde ?
Patrick Pérez:
[
4:52] Ce n'est pas du tout notre vocation. Et donc, ce que je voulais dire par là, c'est que dans les grandes annonces qui foisonnent depuis, et ça va s'accélérant depuis deux ans, il y a beaucoup, beaucoup d'investissements liés à l'infrastructure pour le déploiement des modèles et donc servir les produits.
Monde Numérique :
[
5:11] Construire des data centers. C'est aussi là que vont les budgets phénoménaux qui sont distribués à droite et à gauche.
Patrick Pérez:
[
5:18] Pour une grande part. Par ailleurs, il y a différents types de... Une fois de plus, l'intelligence artificielle, c'est très vaste. On connaît dans le grand public, évidemment, les robots conversationnels, la ChatGPT, etc. Tous les modèles de génération d'images, de vidéos, de musique, etc. Tous les... Tous les modèles d'IA ne sont pas aussi lourds ou coûteux à entraîner. Ça dépend du type de données, ça dépend de la taille des modèles, etc.
Patrick Pérez:
[
5:48] Donc, il y a aussi tout un tas de sujets qui peuvent être travaillés. Si on choisit bien ces sujets et qu'on a les bonnes équipes, qui peuvent être travaillés à des échelles plus réduites que ce qu'on entend dans le grand public ou dans les grandes annonces des grands groupes.
Monde Numérique :
[
6:04] Là, vous parlez des modèles, des LLM, en fait, qui sont moins gourmands, du coup, ou que vous, vous ne déployez pas sur d'immenses data centers.
Patrick Pérez:
[
6:17] Alors, je fais allusion à plusieurs choses. Quand on parle de taille ou de ressources nécessaires pour entraîner et utiliser des modèles, effectivement, il y a quelle quantité de données, quel type de données, quelles ressources de calcul pour entraîner les modèles, quelle taille de modèles. Il y a des ordres de grandeur très variables. On a des modèles qui vont du... Les tailles de modèles intéressants, ça peut aller de 1 à 100 ou de 1 à 1 000 par rapport à ce qu'on appelle les petits modèles qui sont disons 1 milliard de paramètres, pour parler technique, puisqu'on entend, même si ça n'est pas nécessairement...
Monde Numérique :
[
6:54] On sait que c'est beaucoup.
Patrick Pérez:
[
6:55] Mais un milliard de paramètres c'est les petits et les gros modèles c'est 100 ou 1000 milliards de paramètres donc on voit qu'il y a toute une gamme j'ai pété 5000 milliards je crois, autant qu'on n'a pas les détails mais du coup il y a toute une gamme de modèles rien que pour parler des grands modèles de langage les LLM que vous évoquiez mais c'est vrai aussi pour les autres modalités toute une gamme de modèles qui sont intéressantes, donc il y a des progrès qui se font sur les petits modèles et c'est très important un.
Monde Numérique :
[
7:23] Petit modèle c'est quoi ? C'est un modèle qui sait faire moins de choses, qui est plus spécialisé.
Patrick Pérez:
[
7:28] Alors, il y a des petits modèles qui sont tout à fait généralistes, mais ils sont effectivement sans doute moins performants sur le spectre complet des tâches d'un modèle généraliste, mais qui peut effectivement ensuite être spécialisé. Mais parfois, la différence n'est pas considérable. En tout cas, c'est un modèle qui est... Qui peut tourner sur une machine plus petite, y compris d'ailleurs sur parfois, et nous ça nous intéresse beaucoup, sur des téléphones portables, des ordinateurs portables, qui n'ont pas besoin d'être dans des data centers dans le cloud.
Monde Numérique :
[
8:04] Mais donc, ils vont être plus spécialisés sur une tâche, je ne sais pas,
Monde Numérique :
[
8:06] ça va être un modèle qui sera utilisé dans une usine, dans une voiture ? Ça fait partie.
Patrick Pérez:
[
8:14] Mais une fois de plus, il y a des cas d'usage qui, effectivement, vraiment les modèles les plus polyvalents et au meilleur niveau en étant complètement polyvalents, ils sont en général très très gros. Mais ce qu'on a découvert aussi, chemin faisant en recherche, c'est qu'on peut comprimer des très gros modèles, soit en les simplifiant, sans changer leur nombre de paramètres, ce fameux nombre de milliards de poids, ou bien on peut partir d'un gros modèle et l'infuser, ce qu'on appelle le distiller, dans un petit modèle. C'est-à-dire que le gros modèle permet d'entraîner un petit modèle qui sera de bonne facture.
Monde Numérique :
[
8:55] C'est un peu ce qu'ont fait les Chinois avec DeepSync ?
Patrick Pérez:
[
8:57] C'est ce que fait tout le monde.
Monde Numérique :
[
8:58] En fait.
Patrick Pérez:
[
8:58] C'est ce que fait tout le monde, d'accord. Tout le monde, cette technique d'apprentissage.
Monde Numérique :
[
9:01] Alors vous, qu'est-ce que vous faites ? Il y avait eu, au début, Moshi, c'était votre premier modèle, qui était déjà vocal, qui avait une brique de reconnaissance et de conversation vocale et qui avait une particularité, je me souviens, de la démonstration. Je ne sais pas s'il est encore comme ça aujourd'hui, mais qui comprend très, très vite, qui répond très, très vite, parfois avant même qu'on ait fini sa phrase.
Patrick Pérez:
[
9:25] I'm going to climb Mount Everest next month. Okay, that's incredible. What kind of gear do you need to bring? Can you tell me a bit about how to prepare myself? First, make sure your body is in shape because you'll be climbing for a long time. Oui, c'est vrai. Qu'est-ce que ça ? Make sure you have the right shoes. Yeah. You don't want to be hiking in sandals. That's right.
Monde Numérique :
[
9:49] Sinon, qu'est-ce qui s'est passé depuis 2023.
Patrick Pérez:
[
9:52] Avant Moshi ? Où on est Moshi ? Moshi nous a pas mal occupé la première année. Donc, juste pour revenir à ce que c'était Moshi, qu'on a dévoilé en juillet 24 et ensuite open sourcé dans les semaines et les mois qu'on suivit. Donc, c'est un modèle conversationnel, vocal, sans tour de parole imposé qui est vraiment une caractéristique très très importante s'agissant de la communication orale avec une machine et donc c'est un modèle qui peut couper en général à bon escient la parole à l'utilisateur et ça peut sembler anodin ou amusant, en fait c'est capital dans le naturel de l'interaction vocale et quand nous on s'intéressait à cette question, c'était vraiment il y avait une barrière technologique là-dessus.
Patrick Pérez:
[
10:42] Et ce n'est pas uniquement qu'on a tout à fait brisé. Donc, c'était une première mondiale, ce qu'on a fait et qu'on a pensourcé. Mais c'est également, pour obtenir ce résultat-là, on a dû, travailler d'une façon différente de ce qui se faisait à ce moment-là, lié à vocal, c'est-à-dire de ne pas passer par une transcription textuelle de la parole de l'utilisateur. Et ça, c'est En fait, c'est très important. D'abord, ça permet d'aller plus vite.
Monde Numérique :
[
11:09] C'est pour ça que ça va plus vite.
Patrick Pérez:
[
11:10] C'est plus fluide. Ça permet donc des interactions et même des superpositions entre les paroles de l'utilisateur et de la machine. Mais ça permet aussi de ne pas perdre de façon définitive un certain nombre d'informations qui sont contenues dans la parole. Justement, ce qui fait la richesse de l'interaction vocale, comme nous sommes en train de le faire à cet instant, c'est le timbre de la voix, c'est l'émotion, c'est l'accent éventuellement, c'est plein de choses.
Monde Numérique :
[
11:36] Mais par exemple, si je dis quelques mots, vous ne vous arrêtez pas forcément de parler. Si, là, vous avez arrêté.
Patrick Pérez:
[
11:40] Non, je peux faire aussi.
Monde Numérique :
[
11:42] Mais voilà, vous pouvez continuer.
Patrick Pérez:
[
11:43] Ce qui contribue aussi. Et on se comprend. Et même si on se marche un petit peu sur les pieds, ça veut dire qu'on est en train quand même d'interagir. Et c'est très important pour la richesse de la communication. Et c'est ça aussi que nous, on voulait aller chercher avec Moshi, donc ce prototype-là. Et donc maintenant, pour poursuivre, puisque vous me demandiez qu'est-ce qui s'est passé après ? En fait, il s'est passé plein de choses et qui, pour beaucoup, venaient des innovations qu'on avait mises dans Moshi. Donc ça nous a permis d'inventer... On a dû, pour le créer, inventer de nouvelles architectures, de nouvelles façons de faire de l'IA temps réel avec du langage parlé.
Patrick Pérez:
[
12:26] Ça nous a permis d'aller sur d'autres sujets qui relèvent aussi de l'IA vocal. Alors par ailleurs, on a donné des yeux à mouchis, Donc, ça s'appelle MoshiVis. Donc, la démo aussi est en ligne et le modèle...
Monde Numérique :
[
12:39] Donc, il écoute, il parle et il le voit.
Patrick Pérez:
[
12:41] Et il le voit. C'est-à-dire, on peut parler avec lui, on peut lui présenter une image et on peut parler de cette image sans toutefois qu'il perde sa capacité à parler d'autre chose. Parce que ça, c'est un des grands problèmes aussi qu'on y a. Des fois, en voulant donner une nouvelle capacité, on perd les précédentes. Donc, on peut prendre un modèle qui s'est très, très bien conversé à l'oral. Puis on va commencer à le modifier pour parler d'image, puis à la fin il ne sait plus que parler d'image on peut lui parler d'autre chose il va imaginer des trucs dans l'image qui n'existent pas parce qu'il croit que, qu'il faut parler de l'image donc on était très contents de ça donc Mochiviz et donc là c'est encore de l'IA conversationnel mais multimodal puisqu'il y a un canal de perception supplémentaire qui est le canal visuel, Et les autres choses qu'on a faites, alors plutôt, alors là vraiment toujours dans le domaine vocal.
Monde Numérique :
[
13:33] Alors pardon, tout ce que vous développez ici, pour la plupart, quand c'est abouti, c'est open source. Donc en fait, ça peut être utilisé par n'importe qui en dehors de Kyutai. Moshi est-tu utilisé aujourd'hui ?
Patrick Pérez:
[
13:46] Alors Moshi, pas qu'on sache en tant que tel, il a été quand même téléchargé sur le modèle plusieurs millions de fois. Ce qui est quand même pas mal mais c'est bien que vous me posez la question parce qu'au cœur de Moshi il y a une brique particulièrement importante qui nous a permis de créer ce modèle qu'on appelle le codec audio c'est aussi un modèle d'intelligence artificielle dont la fonction c'est de transformer le flux audio qui est un signal audio en numérique mais beaucoup plus compact est complètement adaptée au traitement par un réseau de neurones.
Monde Numérique :
[
14:26] Vous avez inventé le MP3 de l'IA, en fait.
Patrick Pérez:
[
14:29] C'est pas mal, ça. Je vais penser à... Mais en tout cas, cette brique-là...
Monde Numérique :
[
14:35] Ça rejoint la notion de compression que vous évoquiez tout à l'heure.
Patrick Pérez:
[
14:37] Mais de compression, c'est pas uniquement une compression qui préserve évidemment la qualité audio, mais aussi ce qui a été dit. Et pour qu'ensuite, l'IA vienne par-dessus pouvoir comprendre et répondre, etc. Et cette brique-là, qu'on a aussi open-sourcée en tant que telle, Donc, elle fait partie intégrante de Moshi, mais elle peut être aussi utilisée de façon isolée pour tout un tas d'autres choses en IA Vocal. Elle a été téléchargée plus de 12 millions de fois. Et on sait qu'elle est très utilisée par beaucoup de gens.
Monde Numérique :
[
15:07] Mais vous ne savez pas comment, ni pourquoi ?
Patrick Pérez:
[
15:09] Parfois, quand les gens prennent la peine de le citer, on a les informations. Et elle a été utilisée, par exemple, pour une IA Vocal qui a aussi fait parler d'elle, qui s'appelle Sésame. Et on sait qu'au moins la brique de le codec audio dont je parlais, qui est une partie intégrante de Moucher, a été utilisée pour ça. Donc oui, c'est ça justement, c'est ça la finalité de l'open source, c'est que d'autres s'en saisissent, qu'on se reste dessus ce qui veut dire que ce qu'on fait a un impact.
Monde Numérique :
[
15:42] Et là, vous ne touchez pas d'argent là-dessus ?
Patrick Pérez:
[
15:44] Non, la question est évidemment bonne et importante. C'est une de nos missions, c'est de contribuer à l'écosystème, mais pas que français-européen. Donc, c'est une communauté internationale et de faciliter la réutilisation de ce qu'on fait. Donc, ça, c'est vraiment quelque chose d'important.
Monde Numérique :
[
16:11] Et finalement, on revient au début de notre entretien, qui est la question du financement, etc. Finalement, ça ne peut marcher qu'avec du mécénat qui taille aujourd'hui ?
Patrick Pérez:
[
16:21] Alors, c'est évidemment... D'abord, c'est ce qui a permis la création du labo il y a un peu moins de deux ans. Le mécénat à cette échelle-là permet de faire des merveilles. C'est important de le dire. On croit très fort au fait que ça puisse intéresser d'autres, mécènes potentiels. C'est vraiment une chose importante. Et il y a d'ailleurs aux États-Unis des...
Patrick Pérez:
[
16:46] Pour le coup, aussi des labos au moins un que nous on suit de près, qui fait des très belles choses en IA et qui est entièrement basé sur le mécénat. Mais ça peut se compléter avec d'autres choses. La question que vous posiez sur, vous avez partagé cette brique techno qui semble plaire à beaucoup et que beaucoup utilisent, y compris évidemment dans des choses commerciales. La question pour nous se pose de façon légitime.
Patrick Pérez:
[
17:19] Dans certains cas, et à travers en particulier quelques partenariats bien choisis et stratégiques, d'avoir des collaborations qui soient sur une base commerciale, sans, et ça reste très important, sans nous éloigner de ce qui est et restera notre mission, qui est de faire avancer la recherche de façon ouverte. Mais ce n'est pas incompatible avec le fait d'avoir des activités secondaires qui permettent effectivement de récupérer une partie de la valeur et qui permettent surtout de continuer.
Monde Numérique :
[
17:58] D'étendre, etc. Donc, Moshi...
Patrick Pérez:
[
18:02] Oui, on s'est arrêté.
Monde Numérique :
[
18:04] Je m'apprêtez à dérouler d'autres choses on est moins cohérents qu'IA mais c'est bien aussi parce que c'est tellement lié en plus l'aspect technologique.
Patrick Pérez:
[
18:11] L'aspect financier et autres aujourd'hui et donc à part Mochi donc ce que je disais c'est que des travaux qui ont permis Mochi ont émergé d'autres, travaux de recherche autour de l'IA vocal, donc je vais en mentionner je vais en mentionner au moins, ouais, quelques-uns j'allais dire au moins deux, en fait plus que deux, Au début de l'année de cette année, au sommet de l'IA, je pense que c'était en février, on a eu le plaisir et le stress de révéler dans la nef du Grand Palais un nouveau projet qui s'appelle Ibiki et qui est un modèle de traduction simultanée. En temps réel, comme ferait un interprète humain et qui en plus est fidèle à la voix de la personne qui parle et pour la version la plus compacte, peut tourner sur un téléphone portable.
Monde Numérique :
[
19:07] Donc, véritable doublage ? Vous parlez de traduction simultanée ? C'est vraiment...
Patrick Pérez:
[
19:11] À la radio, dont je suis grand fan, quand quelqu'un parle en anglais, il y a deux versions en soi. On attend que la personne invitée finisse sa phrase et l'interprète qui prend des notes va traduire, le traducteur traduit ou bien il y a la version qui est moins évidente à écouter où c'est en même temps. Mais qui est typiquement ce qui se passe dans des congrès internationaux ou des choses comme ça. Donc c'est ce type de fonction, mais à la portée de tout le monde. C'est-à-dire, on parle du téléphone portable et pour ceux qui s'intéressent, il y a des, vidéos accessibles depuis notre site, on parle en français, et le modèle, on est en train de parler, commence à traduire en anglais en ayant une voix qui ressemble à celle de l'utilisateur, avec un délai qui fluctue en fonction du contenu, ce qui est vraiment la problématique, une des problématiques de la traduction simultanée, c'est que des fois, il faut attendre un peu, pour poursuivre la traduction, parce qu'il n'y a pas assez d'informations, etc. Donc, il y a une des choses qu'on a dû aussi développer.
Monde Numérique :
[
20:24] Et on peut l'utiliser, ça ?
Patrick Pérez:
[
20:25] Les modèles sont disponibles. C'est un proto de recherche.
Monde Numérique :
[
20:30] Il n'y a pas une appli sur les stores prête à l'emploi ?
Patrick Pérez:
[
20:33] Non. Autant vous dire qu'après qu'on ait montré ça et OpenSource, on a eu beaucoup de sollicitations de ce type-là. Où est l'appli ? Donc, non, en revanche, ça montre que la techno est là, on l'a créée et elle ne demande plus qu'à être productisée, ce qui veut dire effectivement étendre les langues. C'est du travail, c'est une ingénierie très lourde quand même, parce qu'il faut de la donnée, il faut réentraîner de nouveaux modèles, etc. Salut les kids! Dans notre contexte géopolitique actuel de multipolarisation des pouvoirs, tout le monde sait qu'un conflit militaire peut éroper à chaque moment. C'est pourquoi j'ai décidé de mettre un device de survivance dans mon jardin, prêt à face à un conflit nucléaire de scèles internationaux.
Patrick Pérez:
[
21:26] C'est le petit nœud pour faire un bon winter. On a montré le chemin, on a donné les briques de base et on a passé à d'autres...
Monde Numérique :
[
21:35] Et vous avez quoi comme langue ?
Patrick Pérez:
[
21:36] Là, c'était français et anglais.
Monde Numérique :
[
21:38] Français et anglais uniquement. Il n'y a pas le chinois ou des choses comme ça. Mais ça serait possible.
Patrick Pérez:
[
21:42] Tout à fait possible.
Monde Numérique :
[
21:44] Si quelqu'un a un data center sous la main, il peut...
Patrick Pérez:
[
21:47] Alors, ce n'est pas que les data centers, c'est les données. C'est les données, d'accord. Le gros sujet, c'est les données. Là, pour la petite histoire...
Monde Numérique :
[
21:53] Ça se trouve des données, non ?
Patrick Pérez:
[
21:55] Alors, des données... La spécificité, là, il faut les données... Enfin, il faut donc des gens qui parlent dans la langue source.
Monde Numérique :
[
22:02] Oui.
Patrick Pérez:
[
22:02] Et il faut la traduction dans la langue cible. Oui.
Monde Numérique :
[
22:05] Ah oui, il faut déjà avoir des paires de textes.
Patrick Pérez:
[
22:09] Et en plus, avec le fameux délai dont je parlais, c'est un alignement variable, pour parler un peu technique, il faut qu'il soit dans les données d'apprentissage. Et la façon dont on s'y est pris, je pense que c'est intéressant aussi, parce que ça illustre aussi une tendance forte en IA moderne, c'est d'avoir recours à des données totalement ou partiellement synthétiques. Et nous, c'est ce qu'on a fait. C'est les données dans la langue source donc le français au début, dans la première phase du projet, c'est de l'audio au français en fait et on a construit la version anglaise de façon synthétique c'est-à-dire transcrit le français traduit le français vers l'anglais avec un traducteur de texte, tout est automatisé c'est un pipeline et ensuite la partie textuelle elle est synthétisée vocalement, donc la version anglaise est synthétique.
Monde Numérique :
[
23:05] D'accord, et c'est ça qui permet ensuite au modèle de s'entraîner.
Patrick Pérez:
[
23:08] Oui.
Monde Numérique :
[
23:09] D'accord.
Patrick Pérez:
[
23:09] Et du coup, si vous voulez faire d'autres paires de langues.
Monde Numérique :
[
23:13] Il n'y a plus qu'à.
Patrick Pérez:
[
23:14] Il n'y a plus qu'à. Il faut quand même des données de bonne qualité, déjà même dans la longue source.
Monde Numérique :
[
23:19] Patrick Pérez, qu'est-ce que ça représente par rapport à des choses qui sont plus médiatisées, qu'on connaît aujourd'hui, que ce soit chez OpenAI ou chez Meta, Comment vous vous situez ? Vous avez craqué des trucs qui n'ont pas craqué ? Vous êtes derrière ? Vous êtes devant ? Vous êtes au même niveau ?
Patrick Pérez:
[
23:38] Alors, on a clairement fait des choses que d'autres n'avaient pas fait avant nous. Les deux dont on vient de parler, c'est le cas. C'est-à-dire, Moshi et Ibiki, c'est des premières mondiales. Alors, dans le cas d'Ibiki, ce qui le rend particulièrement innovant, il y a quelques groupes, pas beaucoup, qui travaillent sur le sujet, parce qu'en plus, ça tournait sur un téléphone portable en février de cette année. Donc, ça, c'est vraiment ça c'est vraiment quelque chose de très très dont on est très très fier mais par.
Monde Numérique :
[
24:12] Exemple Meta qui annonce son système de traduction dans les lunettes il tournera pas à 100% dans les lunettes.
Patrick Pérez:
[
24:18] Alors moi j'ai pas les détails techniques mais je crois ça passe.
Monde Numérique :
[
24:22] Par le smartphone et le smartphone lui-même a besoin du data center derrière donc c'est pour ça que ça marche une fois sur deux.
Patrick Pérez:
[
24:27] Après votre question elle est elle est compliquée elle est vache par ailleurs, tous ces sujets là sont évidemment des sujets très importants sur lequel il y a pas mal d'acteurs, nous on choisit on choisit un angle et on fait des choses qui sont très innovantes, après il y a des gens qui peuvent passer par derrière assez vite et déployer une machine de guerre pour faire un modèle, un produit etc Je pense qu'il faut distinguer en effet la vitesse d'avancée de la connaissance et la réalisation des produits. Et par ailleurs, il y a une difficulté, mais qui est vraie pour toute la communauté scientifique en IA, mais déjà au niveau des chercheurs, c'est comment on compare les choses. Donc dire qui est devant, qui est derrière, en comparant des choses qui sont
Patrick Pérez:
[
25:26] comparables, les tailles de modèles, est-ce que ça tourne en local, pas en local. Je vais prendre un autre exemple, une chose dont on est... Extrêmement fier, qui nous a servi d'ailleurs à créer la donnée synthétique dont je parlais, c'est une autre des, sorties du travail sur Moshi, qui nous a pas mal occupés en 2025, c'est la synthèse vocale.
Monde Numérique :
[
25:49] On a l'impression que c'est pas très neuf.
Patrick Pérez:
[
25:51] On a l'impression que c'est pas très neuf. On voit quand même que, globalement, la techno de la synthèse vocale avec l'IA générative a quand même, en qualité et en expressivité, a fait des bons considérables par rapport à ce qu'on avait à d'autres époques pour les annonces dans les hauts-parleurs des gares, tout ça, ou sur des systèmes de navigation. Mais il y a plusieurs choses qui ne sont peut-être pas du tout visibles au premier regard et sur lesquelles nous, on a fait des choses importantes. D'abord, est-ce que la synthèse vocale peut se faire en même temps que le texte arrive ? Imaginons que le texte arrive et sorte d'un LLM, justement, qui peut cracher le texte assez vite. Est-ce que la synthèse peut se faire à la volée ? La réponse est oui, nous le faisons à la volée. C'est ça qui nous a permis de faire une autre riave vocale conversationnelle qui s'appelle Unmute, où il y a au milieu un modèle textuel, et la réponse du modèle textuel est à la volée, instantanément, en temps réel, transformée en voix. Donc ça, c'est un détail technique. Mais du coup, il ouvre plein de cas d'usages différents, donc celui que je viens de mentionner, Et c'est très difficile à faire. Ça, c'est un exemple. Un autre exemple, alors, pareil, maintenant, ça devient un peu, comment dirais-je, assez répandu, mais la facilité à reproduire une voix. Combien de secondes ou plus...
Monde Numérique :
[
27:20] A cloner la voix, vous voulez dire ? Qui ressemble à l'original.
Patrick Pérez:
[
27:25] Qui ressemble à l'original, qui a plein d'applications vertueuses, même si ça, évidemment.
Monde Numérique :
[
27:31] Ça suscite...
Patrick Pérez:
[
27:33] Ça suscite plein de choses.
Monde Numérique :
[
27:34] En double, pas que les films. Il y a plein de vidéos qui ont besoin d'être doublées et qui ne peuvent pas se payer des doubleurs.
Patrick Pérez:
[
27:39] Exactement. Ou faire parler des gens qui ne peuvent plus parler.
Monde Numérique :
[
27:42] Etc.
Patrick Pérez:
[
27:44] Cette question de « est-ce qu'il faut des heures ou juste quelques secondes d'échantillons de la voix pour pouvoir la reproduire ? » C'est des avancées qui ne sont pas forcément visibles mais nous auxquelles on a contribué.
Monde Numérique :
[
27:55] Qui rendent les outils plus performants, plus frugaux aussi.
Patrick Pérez:
[
28:00] Et d'ailleurs, j'allais arriver à un dernier point, qui est celui de à quel point c'est coûteux de générer. Donc toujours sur cet exemple de la synthèse vocale, si vous déployez de la synthèse vocale à grande échelle, c'est-à-dire dans le cloud, c'est-à-dire vous servez plein d'utilisateurs en même temps, combien vous allez pouvoir faire de synthèse en parallèle sur la même carte graphique ? Et bien à ce point-là... Suivant la façon dont c'est fait, ça peut changer vraiment, j'allais dire du simple double, non, mais du simple à 100 fois plus. Et ça, il se trouve que les technos que nous on a développés, que ce soit en transcription de la parole, de la voix vers le texte, ou de la synthèse vocale, c'est-à-dire du texte vers la voix, elles sont très très adaptées au fait d'être multipliées, enfin d'être calculées en parallèle, en même temps, sur la même chip.
Monde Numérique :
[
28:57] C'est de l'optimisation, en fait.
Patrick Pérez:
[
28:59] C'est l'optimisation, mais c'est aussi lié à la structure des modèles qu'on
Patrick Pérez:
[
29:02] utilise qui permettent ça. Et ça permet évidemment des coûts ou des économies d'échelle considérables pour quelqu'un qui veut faire ça dans le cloud à grande échelle.
Monde Numérique :
[
29:12] Bien sûr. Le futur, c'est quoi ? Sur quoi vous travaillez aujourd'hui ? Et quelles sont les pistes que vous avez envie d'explorer ?
Patrick Pérez:
[
29:20] Alors, il y en a plein. Les chercheurs ont toujours plein de pistes à explorer. Les choses qui vraiment nous occupent, là, en ce moment, on continue beaucoup sur cet aspect multimodal, en particulier le fait que le modèle, tout en restant disponible à l'interaction, à la conversation vocale, puisse avoir accès à des informations. Alors, éventuellement, en temps réel, ça peut être une vidéo ou des documents. Donc le fait de pouvoir accéder à des contenus qui ne sont pas du tout des contenus qu'il a vus avant, c'est ça qui est important donc une vidéo en train de passer, un corpus, des contenus qui lui sont fournis au moment où vous l'utilisez comment, coupler ça avec une IA qui continue à être très volubile très fluide et donc ça c'est tout en restant temps réel Vous réduisez.
Monde Numérique :
[
30:19] Le temps d'entraînement, c'est ça ?
Patrick Pérez:
[
30:21] Non, cette question, c'est une question générale pour les IA actuelles, typiques de type textuel. Comment s'en servir pour aller chercher l'information sur des documents, soit qui n'existaient pas au moment où l'IA était entraînée, ou simplement qui ne sont pas accessibles depuis le web ? Ça, c'est vraiment un des grands cas d'usage des IA actuelles, textuelles, dans les grandes organisations, les entreprises, etc. Mais maintenant, si vous imaginez ça en multipliant les modalités, c'est-à-dire que les informations auxquelles vous voulez accéder, ce n'est pas que du texte, mais c'est du texte des images, des vidéos, de l'audio. Et qu'en plus, vous voulez vous interagir, pas que par le texte, mais aussi par la voix. Là, du coup, vous vous retrouvez avec un objet d'une fluidité et d'une utilité très grande. Et quand on en parle avec des gens du monde des médias, des journalistes, etc., C'est des choses qui les font rêver.
Monde Numérique :
[
31:23] On imagine tout de suite qu'il y a des applications formidables. D'ailleurs, vous avez un outil qui est utilisé par un média.
Patrick Pérez:
[
31:30] En effet, ce qui a été annoncé récemment, c'est par le journal La Provence, qui fait partie du groupe SMA Media. C'est sur leur site et leur application, je pense.
Monde Numérique :
[
31:45] C'est logique, c'est un de vos mécènes, finalement.
Patrick Pérez:
[
31:48] Nous sommes proches, en effet, mais en utilisant des briques qui, par ailleurs, sont open source.
Monde Numérique :
[
31:54] Oui, donc n'importe qui pourrait s'en servir.
Patrick Pérez:
[
31:57] Absolument. Donc, on a travaillé avec eux dans cette collaboration très intéressante visant à rendre accessible, sous un format audio vraiment adapté, des contenus écrits du journal. Et donc on revient aux histoires de synthèse vocale expressive c'est pas évident de rendre intéressant la lecture haute voix d'un article parce.
Monde Numérique :
[
32:23] Que les systèmes de synthèse vocale aujourd'hui sont un peu soporifiques.
Patrick Pérez:
[
32:27] D'une part et d'autre part parce que le texte lui-même il n'est pas nécessairement prévu pour ça donc il faut aussi le modifier ce qui a été donc.
Monde Numérique :
[
32:36] C'est pas du mot à bon en fait.
Patrick Pérez:
[
32:37] La partie changement du texte c'est pas quelque chose qu'on a fait nous Nous, on s'est occupé de la partie synthèse vocale, mais ça donne une idée quand même de comment, en mettant ensemble des modèles de différentes modalités, le texte, le son, etc., ça permet d'accéder de façon plus facile, plus inclusive aussi quand même à des contenus de qualité ? Et aussi à redonner la valeur à des contenus qui préexistent déjà et ça permet de les remettre en valeur en fait, donc ça c'est.
Monde Numérique :
[
33:16] Vraiment très chouette Juste encore un mot sur ce produit-là il lit l'article mais comme un humain le lirait c'est-à-dire qu'il va laisser tomber les mots pas importants les éléments de...
Patrick Pérez:
[
33:28] Il est plus ramassé, plus incisif et l'étape d'après c'est quoi ? C'est que ça soit interactif.
Monde Numérique :
[
33:35] Qu'on puisse lui poser des questions l'arrêter encore moins donc j'en dirai pas plus bon il faudra que je revienne alors merci beaucoup Patrick Pérez avec plaisir.