Dans un entretien passionnant, le français Yann Le Cun (Meta), "pape" de l'intelligence artificielle, explique comment il espère parvenir à une intelligence de niveau humain en suivant une autre voie que celle de ses concurrents.
Transcription intégrale
Monde Numérique : [0:00] Imaginez un assistant intelligent capable de vous organiser de A à Z un voyage entre New York et Paris, de prendre le billet d'avion, de réserver un taxi, de gérer toutes les contraintes de distance, de délai, de retard, etc. [0:15] Eh bien, promis, ça existera un jour, si on en croit Yann Le Cun, chercheur en chef en intelligence artificielle au sein du groupe Meta. C'est là-dessus que travaille Meta depuis plusieurs années, et ça fait un moment qu'il dit, Yann Le Cun, qu'on aura tous bientôt des petits assistants intelligents qui travailleront pour nous. Mais pour ça, il faut des IA aussi intelligentes que l'humain. Et on est loin d'y être, car selon Yann Le Cun, les IA génératives actuelles n'ont rien à envier au cerveau d'un enfant de 4 ans qui est déjà bien au-delà, puisqu'il sait reconnaître en quelques minutes un chat, alors qu'une IA, elle, a besoin de centaines d'heures d'entraînement pour parvenir à ça. Les fameux LLM, les grands modèles de langage, ne traitent que du texte ou bien des images ou du son transformés en éléments textuels ou numériques. Et selon Yann Le Cun, ça ne suffit pas, ce n'est pas une bonne voie. C'est pour cela que Meta a choisi une autre approche, basée sur des algorithmes baptisés JEPA, qui tentent d'appréhender le monde dans sa globalité. Yann Le Cun parle d'une IA guidée par l'objectif, c'est-à-dire qu'il se concentre sur l'essentiel, vers sa mission, sans s'embarrasser des détails. C'est de cela dont il était question cette semaine à Paris, au siège de META. Et je vous propose l'enregistrement d'une conversation avec Yann Le Cun interrogé par quelques journalistes. Yann Le Cun, comment vous définiriez ce que vous faites chez Meta par rapport à ce que font d'autres ? Dans quelle direction vous allez-vous ? Quel est votre but en matière d'IA ?
Yann Le Cun : [1:49] Alors, il y a déjà des différences dans les modus operandi, c'est-à-dire dans le mode de fonctionnement. À Meta, on pratique la recherche ouverte. Donc déjà, on a un laboratoire de recherche avancée, FAIR, Fundamentally AI Research, qui fait la recherche à long terme. Ce n'est pas le cas de tout le monde. C'est le cas de Google, par exemple. C'est le cas de Microsoft. Microsoft, pas trop d'entreprises plus petites, en fait, qui n'ont pas vraiment les reins financiers assez solides pour faire vraiment de la recherche à long terme. Donc, ils se focalisent plutôt sur des produits et la technologie à court terme. [2:21] Donc, la possibilité de faire la recherche à long terme, déjà, ça nous caractérise. Ensuite, faire la recherche ouverte, c'est-à-dire en collaboration avec le monde académique, avec d'autres entreprises peut-être plus petites, avec la recherche publique en France, par exemple. [2:32] Et puis une vision sur quel chemin emprunter pour arriver à des systèmes vraiment intelligents, c'est-à-dire qui puissent peut-être atteindre le niveau d'intelligence humaine et là chaque, entreprise a son idée un petit peu sa philosophie et puis certaines en ont changé d'une fois sur l'autre par exemple DeepMind avait démarré une douzaine d'années avec l'idée que ce qui amènerait à l'intelligence de niveau humain c'est l'apprentissage par renforcement ça a été un échec total maintenant ils ont quasiment abandonné ce programme c'est un petit peu la même chose pour OpenAI et puis ils ont aussi abandonné ce programme ils se sont redirigés vers les LLM entre autres, les LLM autorégressifs et avec l'idée que pour arriver à l'intelligence de niveau humain, il suffit de faire des modèles plus gros, entraîner avec plus de données avec des ordinateurs plus puissants, Ça, moi, je n'y crois pas. C'est-à-dire, je pense qu'il faut des architectures fondamentalement nouvelles qui permettent aux machines de comprendre le monde physique, de raisonner, d'avoir la mémoire persistante, etc. Donc, il faut de l'innovation scientifique. Ce n'est pas simplement un problème technologique de faisons plus fort, plus gros. Il faut vraiment des progrès conceptuels. Donc, c'est là-dessus qu'on travaille. Un système ne peut pas comprendre comment fonctionne le monde simplement à partir de textes. C'est très, très stylisé, en fait, ce qu'on met dans le texte. Il y a tout un tas de choses qu'on n'exprime jamais en texte parce qu'elles sont tellement évidentes à cause de notre expérience du monde qu'on ne l'écrit jamais. [3:52] Donc c'est tout ce qui manque et en fait c'est on n'a pas cette impression mais en fait c'est la majorité de notre connaissance de notre savoir n'a rien à voir avec la langue en fait si on essaie au niveau philosophique de savoir ce que c'est vraiment que l'intelligence c'est essayer de trouver des bonnes représentations d'un phénomène d'une réalité, qui nous permettent d'agir déjà sur la réalité, ou de la comprendre ou de la prédire. La prévision, c'est un peu l'essence de l'intelligence. Et la prévision, en fait, est nécessaire à la capacité de planifier des actions. Donc, par exemple, ça a nécessité quelques milliers d'années de civilisation et de réflexion de gens très futés pour dire si on veut prédire la trajectoire des planètes, déjà pour réaliser que la Terre n'est pas au centre de l'univers, etc. Mais aussi le fait que pour prédire la trajectoire d'une planète, une planète c'est très compliqué, c'est très gros, on n'a pas besoin de connaître sa masse, sa forme, sa composition, sa densité, sa couleur, rien de tout ça, aucune importance. Les seules choses qui sont importantes c'est 3 par mètres de position et 3 par mètres de vitesse, c'est tout. On n'a même pas besoin de savoir qu'elle tourne sur elle-même ou pas. [5:02] On a juste besoin de ces chiffres pour pouvoir calculer sa trajectoire pendant des siècles, grâce à Newton. Donc ce processus par lequel on trouve des abstractions qui nous permettent de faire des prédictions, c'est un peu l'essence de l'intelligence. C'est ce qu'on essaie de faire avec ces modèles J-PAD que j'ai essayé. Mais bon, là je parle de Newton, mais un chat gouttière est capable de faire ça aussi. Un chat gouttière trouve les bonnes représentations et abstractions pour prédire la trajectoire de la souris ou arriver à ouvrir la porte d'un endroit où il veut rentrer, etc.
Question : [5:37] Est-ce qu'au niveau visuel, les vidéos, est-ce que cette abstraction, ce n'est pas en fait la vectorisation des images et des vidéos ?
Yann Le Cun : [5:44] Peut-être, mais la question, c'est comment ? Vectorisation, c'est quoi ? Qu'est-ce qui est important ? Pour certaines tâches, la seule chose qui est importante à propos de cette bouteille, c'est peut-être sa forme, son poids, etc. Le fait qu'il y a de l'eau dedans. Mais pour d'autres applications, c'est ce qui est écrit dessus, ce qui est beaucoup plus complexe, détaillé, etc. Et puis, peut-être la composition du contenu et autres. Donc, la question de savoir, est-ce que le système d'apprentissage peut trouver une représentation abstraite de la réalité qui contient toute l'information pertinente, mais qui ignore tout ce qui est compliqué, tout ce qui est trop compliqué ? Et comment on fait ça ? C'est la grosse question, un peu conceptuelle. Et puis, on a réussi à réduire ça, en fait, à un algorithme qui marche, ce qui est un peu la première fois, en fait. Ça ne fait pas très longtemps qu'on sait faire ça. Et c'est un processus complètement différent d'essayer de prédire tous les détails. [6:34] Et ça nous a pris 7-8 ans à dégager ce concept-là. Ce n'est pas évident.
Monde Numérique : [6:40] Donc, vous pensez que les modèles qui sont basés uniquement sur le texte, aujourd'hui, en fait, ils font fausse route ?
Yann Le Cun : [6:44] Ils ne font pas fausse route parce qu'ils sont utiles. Donc, si on veut faire des applications à court terme, des gens intelligents comme le font les groupes de produits de GNI à Meta, c'est très bien. Mais comme chemin vers l'intelligence de niveau humain, c'est une bretelle de sortie qui sort de l'autoroute c'est un composant intéressant, qui va être réutilisé mais quand on parle on a le concept, on a une idée un modèle mental, enfin une idée qui est représentée quelque part dans le cerveau, dans le corps exprès frontal probablement, et puis ensuite on a un processus par lequel on peut traduire cette idée en langue en langage, pour l'exprimer, La partie du cerveau qui fait cette traduction d'une idée en texte, c'est un tout petit morceau de cerveau qui est là, ça s'appelle l'aire de Broca. Sur la part, on ne peut pas parler, mais on peut quand même penser. On ne peut pas parler. Un LLM, c'est une aire de Broca. Maintenant, tout ça, on ne l'a pas reproduit encore. Donc, il faut se méfier, en fait. Ce n'est pas parce qu’une machine peut manipuler la langue qu'elle est nécessairement intelligente. Donc, on est un petit peu victime de ça c'est l'effet l'effet Elisa que vous avez peut-être entendu parler.
Question : [7:54] Est-ce qu'on va développer des relations personnelles avec l'intelligence artificielle que ça va devenir nos amis ?
Yann Le Cun : [8:02] Oui on établira des relations avec les en fait c'est un peu le cas déjà parce que on a tendance à anthropomorphiser c'est un mot français ça oui oui. [8:15] Des objets même des voitures des choses comme ça donc c'est évidemment évidemment, une tendance assez facile, mais à terme, ces systèmes pourront non seulement dialoguer, mais aussi avoir des émotions. C'est quelque chose dont je ne parle plus beaucoup, mais ces architectures dont je parle, qui sont pilotées par des objectifs, si elles ont des objectifs à remplir, il leur faut la capacité de prédire à l'avance si une séquence d'action qu'elles vont faire va remplir cet objectif, même si elles ne peuvent pas tout prédire de ce qui va se passer. Et ça, c'est très similaire aux émotions. Pour les animaux et les humains. Par exemple, la peur, c'est une émotion qui est produite par une prédiction de quelque chose de très négatif qui peut se produire ou un risque que quelque chose de très négatif puisse se produire par anticipation. C'est beaucoup une anticipation de résultats, les émotions. Il y a les émotions immédiates. Si je vous pince le bras, ça va vous faire mal immédiatement. Vous n'avez pas besoin de prier quoi que ce soit. Mais la deuxième fois que je vais essayer de le faire, je vais aller reculer parce que votre modèle du monde qui inclut le fait que je pince les gens va vous faire prédire que quelque chose de déplaisant va se produire. Donc là, ça c'est une émotion. C'est pas vraiment de la peur, mais un petit peu. [9:27] Les machines auront ce genre d'émotions à terme. Pour l'instant, non. Pour l'instant, c'est du pipo.
Monde Numérique : [9:33] Et dans combien de temps ? Est-ce que c'est juste une question de temps ou il y a déjà des obstacles que vous ne voyez pas comment vous pourrez les surmonter ?
Yann Le Cun : [9:40] Les obstacles, c'est ceux sur lesquels on travaille. Donc oui, on est très familier avec les obstacles. C'est comme si on était devant une montagne et qu'on essaie de la gravir en ce moment. Donc oui, on connaît l'obstacle, mais on ne sait pas combien il y a de montagnes derrière. Donc c'est pour ça, en fait, que très souvent, les gens un peu jeunes ou naïfs ou optimistes ou victimes d'auto-illusion, en général, se disent « Ah voilà, c'est la dernière montagne, on gravit cette montagne et après...
Monde Numérique : [10:09] » C'est réglé.
Yann Le Cun : [10:09] Le problème est réglé. Et il y a eu ce genre de réflexion dans l'histoire de l'IA depuis 65 ans. Le premier exemple pourrait être les gens dans les années 50, Newell et Simons, les pionniers de l'IA, aussi priturés. Un de leurs premiers programmes intelligents s'appelait le GPS. Ça veut dire General Problem Solver. Ce que ça voulait dire, c'est qu'ils avaient un programme dont ils pensaient qu'ils pourraient résoudre tous les problèmes. [10:37] On formule un problème en termes d'optimisation, en fait, de résolution de contraintes, et puis ensuite, il suffit d'avoir un espace de recherche de solutions et on écrit un algorithme pour rechercher la bonne solution. Et puis voilà. Ce qu'ils n'avaient pas réalisé, c'est que tous les problèmes, déjà les problèmes qui sont très difficiles à formuler, mais ceux qu'on arrive à formuler, trouver la solution prend presque toujours un temps exponentiel en fonction de la taille du problème, et donc n'est pas résolu et intractable. Donc ce programme, ces gens-là se sont dit voilà, ça y est, on peut faire toutes les tâches intelligentes possibles. Oui, sauf que la plupart prendraient l'âge de l'univers à un ordinateur de l'époque, et encore aujourd'hui. Et donc ça, ça a mené à un développement de toute une théorie de la complexité de calcul, etc., qui montre que la plupart des problèmes intéressants, en fait, ont une complexité qui croît exponentiellement avec... Par exemple, si on veut jouer aux échecs, on peut se dire quelle est ma chance de gagner si je joue ce coup. Mais bon, je peux jouer une bonne quinzaine de coups différents, donc je suis obligé de calculer ses probabilités de gagner pour les 15 coups. Mais ensuite, l'adversaire va aussi jouer 15 coups. Donc maintenant, le nombre de coups est disons 16. Donc ça fait 16 fois 16, 256. [11:44] Ensuite, je peux jouer un autre coup, on multiplie par 16 encore. Donc il y a cette arborescence qui croît exponentiellement. Ce qui veut dire qu'on ne peut pas prédire au-delà de 5-6 coups. Si on est malin, peut-être 9. Et en fait, toutes les ruses dans les systèmes de jeux d'échecs, [12:00] c'est comment ne pas explorer tout l'arbre, etc. Donc ce sont des algorithmes logistiques. Et finalement, tous les problèmes sont comme ça. Tous les problèmes sont trop compliqués. Les problèmes de vision sont trop compliqués. Tout ça sont les choses qu'on arrive à résoudre avec l'apprentissage. [12:16] Donc voilà, la montagne qu'on est en train de gravir. En fait, j'ai dit les quatre problèmes. Le premier problème, c'est arriver à reproduire le type d'apprentissage qui se passe chez les enfants quand ils observent le monde et arrivent à comprendre, la nature du monde, du monde physique, la gravité, les objets, le caractère tridimensionnel du monde, la différence entre objet animé et inanimé, enfin tous les concepts de base qu'on apprend les premiers mois de la vie que les animaux apprennent. C'est une grosse montagne. Ensuite, il y a l'intégration de ça dans un système qui est capable de planifier des actions pour arriver à un but. C'est la deuxième montagne. Il y a des tas de problèmes qui sont cachés derrière ça. Le fait que, par exemple, si le modèle du monde prédictif n'est pas exact partout, le système ne va pas planifier correctement. Il va se faire une idée de quel va être l'effet des actions qu'il va prendre qui va être fausse. et donc ne pas arriver au résultat escompté. Et puis, il y a le troisième qui est. [13:19] Comment spécifier justement ces fonctions objectifs pour remplir un but particulier, ainsi que les garde-fous. Bon, il y a des tas de problèmes. Ce n'est pas seulement des problèmes techniques et technologiques. Donc, il y a des tas de problèmes à régler. C'est un problème de dix ans. Ce n'est pas pour demain.
Monde Numérique : [13:36] Yann Le Cun, scientifique en chef en intelligence artificielle chez Meta.