Jean-Baptiste Kempf, représentant de la communauté open source VLC, présente les nouvelles fonctionnalités du célèbre lecteur multimédia lors du CES de Las Vegas. VLC, qui compte plus de 500 millions d'utilisateurs, se distingue par sa gratuité et sa capacité à lire presque tous les formats audio et vidéo. L'innovation présentée est un système de sous-titrage automatique basé sur l'intelligence artificielle, qui fonctionne hors ligne et peut traduire en près de 100 langues. Ce système traite aussi bien des vidéos préenregistrées que des flux en direct, rendant VLC accessible à un large public. JB Kempf évoque également des projets futurs, tels que l'intégration de fonctionnalités de doublage, tout en reconnaissant les défis techniques à relever. Il exprime sa fierté que VLC soit utilisé pour sa qualité, même par des utilisateurs ne connaissant pas son origine française. L'objectif de VLC est de démocratiser l'accès à la technologie, en visant un public diversifié, y compris les personnes âgées.
Transcription :
[0:04] Au CES de Las Vegas, dans le secteur de la French Tech, on ne voit que vous,
[0:09] VLC, avec vos magnifiques chapeaux en forme de cône de signalisation routière. Jean-Baptiste Kempf, bonjour. C'est vous qui avez créé VLC. Rappelez-nous ce que c'est pour ceux qui ne connaîtraient pas. Alors, je n'ai pas créé VLC parce qu'il n'y a personne qui a créé VLC. VLC, c'est une communauté open source qui existe depuis un peu plus de 20 ans, qui crée un logiciel. VLC, c'est le logiciel français le plus utilisé au monde, probablement le moins rentable, parce que c'est gratuit, c'est open source, c'est un lecteur qui marche parce que ça lit tout type de vidéos, audio et sous-titres. Et aujourd'hui, tout le monde l'utilise, soit en utilisant l'application, soit en utilisant la technologie que vous retrouvez dans quasiment toutes les apps, que ce soit Netflix, YouTube, TikTok, tout ça, c'est basé sur des technologies open source développées par les équipes de VLC.
[0:53] Et alors, à Las Vegas, vous présentez une nouveauté, c'est un système de sous-titrage automatique. Alors effectivement, là ce qu'on fait, c'est qu'on fait une démo de sous-titrage automatique en IA avec des modèles d'IA qui tournent sur les devices, donc sur l'ordinateur des gens qui fonctionnent offline, sans avoir besoin d'un service en ligne. Et donc là, ce qu'on montre, c'est que ça prend l'audio et ça en fait un sous-titre en anglais et ensuite ça traduit ce sous-titre en anglais dans à peu près une centaine de langues. Donc ça marche en français, en thaïlandais, en russe. et donc ça veut dire qu'on peut avoir énormément de sous-titres pour des vidéos qui n'ont pas été sous-titrées et ça marche en live, il n'y a pas besoin de pré-processer, ça marche directement et sur les ordinateurs des gens normaux, des vrais utilisateurs, pas en dépendant d'une plateforme donc tout ça c'est ouvert et open source C'est vraiment votre marque de fabrique, on va dire redonner le pouvoir à l'utilisateur, en s'affranchissant de ce type d'infrastructure extérieure Alors en fait, il y a... C'est clairement un objectif de la communauté open source et libre, c'est justement d'avoir cette... de redonner les droits aux utilisateurs.
[2:04] On ne se fait pas d'illusions, vu le monde de la tech, on ne pense pas qu'on va tout changer. Mais il est nécessaire d'avoir des gens comme nous qui rappellent qu'il y a autre chose dans la balance et qu'on est capable de faire des choses avec des tout petits moyens. VLC, c'est plus de 500 millions d'utilisateurs actifs. Et le nombre de développeurs sur VLC, c'est 10 personnes. Donc on est capable de faire des trucs incroyables. Il n'y a pas besoin d'être des milliards et d'être une énorme boîte américaine pour faire des choses cool. Et ça, c'est important de le rappeler. Et on est là pour le rappeler aussi au CES.
[2:32] Juste un mot à propos des sous-titres encore Donc ça fonctionne comment ? Il faut que j'ai une vidéo téléchargée Sur mon ordi Je la lis avec VLC Et elle va se retrouver sous-titrée à la volée Alors en fait il n'y a même pas besoin de la télécharger Ça peut être un streaming lu dans VLC, Mais c'est vraiment ce que ça prend C'est que ça prend l'audio de n'importe quel média Qui marche dans VLC Ça pourrait être même un DVD Ça pourrait être même avec une carte satellite La télé, la TNT, Ça passe dans VLC on prend l'audio, avec un modèle, un premier modèle d'IA, on transforme l'audio en sous-titre, c'est basé sur Whisper, et après on a un deuxième modèle d'IA qui prend le sous-titre anglais, ou le sous-titre français si la vidéo était en français, et le transforme dans d'autres langues. Donc là on a à peu près 90 langues qui fonctionnent. Pour l'instant c'est le texte, est-ce qu'un jour vous envisagez carrément le doublage ? Ah oui, alors c'est clairement l'étape d'après, c'est donc une fois qu'on a généré le nouveau sous-titre en la nouvelle langue, c'est de faire le doublage. Ça, il y a quelques... on a un prototype qui marchote là-dessus. Le problème, c'est qu'il faudrait faire un peu plus et il faudrait aussi faire un modèle d'IA qui bouge les lèvres des gens et ça, on n'y est pas, quoi. Parce que nous, on utilise quand même des modèles existants qu'on fine-tune, mais ça reste des modèles existants ouverts et aujourd'hui, il n'y en a pas qui existent, qui sont ouverts.
[3:46] Y'a pas de modèles qui font du... ça s'appelle du lip-sync, hein, existant, même chez Inria, il me semblait avoir vu des choses. Alors, lip-sync, oui, mais vraiment, modification de la... c'est beaucoup plus compliqué, et surtout, ça demande de la puissance un peu plus importante. Là, l'idée, c'était d'être capable de faire tourner ça sur un ordinateur normal. Là, la démo, c'est un Mac Mini M1, tout ce qu'il y a de plus classique, c'est pas une énorme machine. Donc, aussi, il faut être capable de se rendre compte de qu'est-ce qu'on est capable de faire sur les devices des gens, avec quand même un objectif, c'est que ça tourne là-dessus, quoi. Et le Digits de NVIDIA qui a été annoncé ici, ça vous ouvre pas les perspectives ? Les humains normaux, ils vont pas acheter des ordinateurs comme ça !
[4:25] VLC, c'est utilisé partout dans le monde, par des...
[4:28] Ce que j'adore, c'est quand les gens disent... Ils savent pas que VLC, c'est français. Et pour nous, c'est un succès. C'est-à-dire qu'ils utilisent VLC, ils savent pas que c'est open source, ils savent pas que c'est français, mais ils l'utilisent parce que c'est bien et ça rend un vrai service. C'est des grands-mères qui sont capables de lire toutes les vidéos qu'on leur envoie. Donc il faut qu'on puisse parler au plus grand nombre. et VLC c'est vraiment pas un truc élitiste là-dessus donc avoir un truc qui demande un ordinateur 3000 euros c'est pas notre délire, Merci Jean-Baptiste Kemp Au CES de Las Vegas dans le secteur de la French Tech, on ne voit que vous VLC avec vos magnifiques chapeaux en forme de cône de signalisation routière Jean-Baptiste Kemp bonjour, c'est vous qui avez créé VLC, rappelez nous ce que c'est pour ceux qui ne connaîtraient pas Alors, je n'ai pas créé VLC parce qu'il n'y a personne qui a créé VLC. VLC, c'est une communauté open source qui existe depuis à peu près un peu plus de 20 ans, qui crée un logiciel.
[5:22] VLC, c'est le logiciel français le plus utilisé au monde, probablement le moins rentable parce que c'est gratuit, c'est open source, c'est un lecteur qui marche parce que ça lit tout type de vidéos, audio et sous-titres. Et aujourd'hui, tout le monde l'utilise, soit en utilisant l'application, soit en utilisant la technologie que vous retrouvez dans quasiment toutes les apps, que soit Netflix, YouTube, TikTok, tout ça c'est basé sur des technologies open source développées par les équipes de VLC. Et alors, à Las Vegas, là, vous présentez une nouveauté, c'est un système de sous-titrage automatique. Alors, effectivement, là, ce qu'on fait, c'est qu'on fait une démo de sous-titrage automatique en IA, avec des modèles d'IA qui tournent sur les devices, donc sur l'ordinateur des gens, qui fonctionnent offline, sans avoir besoin d'un service en ligne.
[6:06] Et donc là, ce qu'on montre, c'est que ça prend l'audio et ça en fait un sous-titre en anglais. Et ensuite, ça traduit ce sous-titre en anglais dans à peu près une centaine de langues. Donc ça marche en français, en thaïlandais, en russe, et donc ça veut dire qu'on peut avoir énormément de sous-titres pour des vidéos qui n'ont pas été sous-titrées, et ça marche en live, il n'y a pas besoin de pré-processer, ça marche directement, et sur les ordinateurs, des gens normaux, des vrais utilisateurs, pas en dépendant d'une plateforme, donc tout ça c'est ouvert et open source. C'est vraiment votre marque de fabrique, on va dire, redonner le pouvoir à l'utilisateur en s'affranchissant de ce type d'infrastructures extérieures. En fait, c'est clairement un objectif de la communauté open source et libre, c'est justement de redonner les droits aux utilisateurs. Alors, on ne se fait pas d'illusions, vu le monde de la tech, on ne pense pas qu'on va tout changer. mais il est nécessaire d'avoir des gens comme nous qui rappellent qu'il y a autre chose dans la balance et qu'on est capable de faire des choses avec des tout petits moyens. VLC c'est plus de 500 millions d'utilisateurs actifs et le nombre de développeurs sur VLC c'est 10 personnes. Donc on est capable de faire des trucs incroyables, il n'y a pas besoin d'être des milliards et d'être une énorme boîte américaine pour faire des choses cool. Et ça c'est important de le rappeler et on est là pour le rappeler aussi au CES.
[7:25] Juste un mot à propos des sous-titres encore, donc ça fonctionne comment ? C'est... Il faut que j'aie une vidéo téléchargée sur mon ordi, je la lis avec VLC et elle va se retrouver sous-titrée à la volée. Alors en fait, il n'y a même pas besoin de la télécharger, ça peut être un streaming lu dans VLC. Mais c'est vraiment ce que ça prend, c'est que ça prend l'audio de n'importe quel média qui marche dans VLC. Ça pourrait être même un DVD, ça pourrait être même avec une carte satellite, la télé, la TNT. Ça passe dans VLC, on prend l'audio avec un modèle, un premier modèle d'IA, on transforme l'audio en sous-titre. C'est basé sur Whisper et après on a un deuxième modèle d'IA qui prend le sous-titre anglais ou le sous-titre français si la vidéo était en français et le transforme dans d'autres langues donc là on a à peu près 90 langues qui fonctionnent, Pour l'instant c'est le texte est-ce qu'un jour vous envisagez carrément le doublage ? Ah oui alors c'est clairement l'étape d'après c'est donc une fois qu'on a généré le nouveau sous-titre dans la nouvelle langue c'est de faire le doublage ça il y a un prototype qui marchote là-dessus le problème c'est qu'il faudrait faire un peu plus et il faudrait aussi faire un modèle d'IA qui bougent les lèvres des gens, et ça, on n'y est pas, quoi. Parce que nous, on utilise quand même des modèles existants, qu'on fine-tune, mais ça reste des modèles existants, ouverts, et aujourd'hui, il n'y en a pas qui existent, qui sont ouverts.
[8:38] Il n'y a pas de modèles qui font du... ça s'appelle du lip-sync, hein, existants, même chez Inria, ils me semblent bien avoir vu des choses. Alors, lip-sync, oui, mais vraiment, modification de la... c'est beaucoup plus compliqué, et surtout, ça demande de la puissance un peu plus importante.
[8:52] Là, l'idée, c'était d'être capable de faire tourner ça sur un ordinateur normal. La démo, c'est un Mac Mini M1, tout ce qu'il y a de plus classique, ce n'est pas une énorme machine.
[9:02] Aussi, il faut être capable de se rendre compte de ce qu'on est capable de faire sur les devices des gens avec quand même un objectif, c'est que ça tourne là-dessus. Et le Digits de Nvidia qui a été annoncé ici, ça ne vous ouvre pas les perspectives ? Les humains normaux, ils ne vont pas acheter des ordinateurs comme ça.
[9:17] VLC, c'est utilisé partout dans le monde.
[9:20] Ce que j'adore, c'est quand les gens disent ils ne savent pas que VLC c'est français et pour nous c'est un succès, c'est-à-dire qu'ils utilisent VLC, ils ne savent pas que c'est open source, ils ne savent pas que c'est français mais ils l'utilisent parce que c'est bien et ça rend un vrai service c'est des grands-mères qui sont capables de lire toutes les vidéos qu'on leur envoie, donc il faut qu'on puisse parler au plus grand nombre et VLC c'est vraiment pas un truc élitiste là-dessus donc avoir un truc qui demande un ordinateur de 3000 euros c'est pas notre délire, Merci Jean-Baptiste Merci.