Cet été, Monde Numérique vous aide à mieux comprendre la tech avec un podcast spécial et la rediffusion des meilleures interviews. Cette semaine : l'intelligence artificielle.Lancé en novembre 2022, ChatGPT a lancé la révolution des IA génératives. Je vous propose un épisode spécial pour mieux comprendre ce phénomène :
|
Guest:
[0:01] Je suis ChatGPT, un modèle de langage développé par OpenA. Mon rôle est de vous aider avec des informations, répondre à vos questions et discuter sur divers sujets.
Monde Numérique :
[0:19] Vous n'avez pas pu passer à côté, depuis bientôt un an et demi, on ne parle que de lui, ChatGPT, et toutes les intelligences artificielles génératives qui sont en train de révolutionner notre manière d'interagir avec les machines. Mais connaissez-vous vraiment ChatGPT et ses cousins ? Savez-vous comment ils fonctionnent, tout ce qu'ils permettent de faire, jusqu'où ils vont nous emmener et tous les nouveaux problèmes qu'ils posent ? C'est ce que nous allons voir dans cet épisode. Si vous passez ici pour la première fois, je suis Jérôme Colombain, journaliste spécialiste des technologies. Dans le podcast Monde Numérique, cet été, on fait le point sur des sujets d'actu brûlant et on en profite pour réécouter quelques-unes des meilleures interviews de ces derniers mois.
Monde Numérique :
[1:27] Nous sommes le 30 novembre 2022. Tout est calme sur le web, mais tout d'un coup, une startup américaine du nom de OpenAI met en ligne un service qui va tout chambouler. ChatGPT. Un peu par surprise. Le PDG de la société, d'ailleurs, Sam Altman, n'a rien dit aux employés de sa compagnie, qui travaillaient sur le sujet depuis des années, mais qui ne sont pas au courant du lancement commercial du chatbot d'intelligence artificielle. Un outil capable de converser en langage naturel avec les humains. Ça surprend même les spécialistes, qui pourtant connaissent tout à fait ce type d'outil pour l'utiliser depuis longtemps dans leurs labos, mais qui ne pensaient pas que l'heure était venue de laisser le grand public accéder à ce genre de joujou. Trop d'imperfections, trop de risques. Pourtant, ce n'était pas l'avis de Sam Altman, qui a brisé une sorte de tabou en faisant de l'IA générative un produit commercial, et plus seulement un objet de recherche. Alors, l'intelligence artificielle générative, qu'est-ce que c'est ? Tout d'abord, ce n'est pas de l'intelligence. Lorsque vous demandez quelque chose à ChatGPT, il ne comprend rien. Il analyse, oui, les mots que l'on emploie, et il recherche des réponses de manière statistique, mathématique, informatique.
Guest:
[2:47] Je suis conçu pour traiter et générer du langage de manière sophistiquée, mais je n'ai pas de conscience ni de compréhension réelle comme les humains.
Monde Numérique :
[3:01] Par exemple, si on lui demande « Écris une histoire sur un dragon et un chevalier », eh bien il va analyser la requête, identifier les mots « histoire », « dragon », « chevalier », consulter sa base de données pour extraire des éléments narratifs, des descriptions, et ensuite il va utiliser des modèles de langage pour générer une histoire, en respectant les conventions, les structures narratives appropriées, etc. Tout ce qu'il a appris. Une IA ne crée pas, elle génère. Une IA n'invente pas, car elle ne connaît que le passé. L'intelligence artificielle générative utilise ce que l'on appelle les fameux LLM, Large Language Models, des grands modèles de langage, et les Transformers, des réseaux de neurones, mis au point initialement par des chercheurs de Google, qui permettent d'analyser et de générer du texte. Écoutez ce qu'en disait la chercheuse Laurence de Villers, dans Monde Numérique, en février 2023.
Guest:
[3:59] On travaille sur ces modèles génératifs à partir d'énormes corpus de données depuis 2017 à peu près. Et Lambda, par exemple de Google, c'est un premier système qui permettait de générer une sorte de pseudo-conversation, puisque c'est ce qu'on appelle un perroquet stochastique, c'est en fait une machine mécanique qui va générer quelque chose. Et puis il y a une part de hasard dans tout ça. Donc la réponse qui est donnée, elle est en langage proche d'une imitation du langage humain, mais elle est absolument sans pensée, sans intention. Effectivement, du coup, c'est assez bluffant et assez choquant aussi ce qu'elle peut raconter parce que ça peut être tout à fait n'importe quoi. Alors, assez choquant, on va en parler, les risques contre lesquels vous alertez d'ailleurs. Mais avant ça, qu'on comprenne bien, par exemple, le chat GPT ou demain le service de Google qui arrive aussi, comment ça fonctionne ? Et notamment, est-ce qu'il s'enrichit de ce que je lui dis ? et ce qu'il apprend au fur et à mesure ?
Guest:
[4:59] Non, il n'apprend pas au fur et à mesure. Ça coûte très cher d'apprendre un énorme modèle comme GPT-3. Ils en font différentes versions, on en est à 3.4, on sera bientôt à 4. Mais le fait d'utiliser une grande masse de données et d'arriver à un modèle de 175 milliards de paramètres, ça ne se fait pas d'un claquement de doigts. En tout cas, ce système-là est au cœur de le chat GPT. Derrière, ce qui fait qu'il donne l'impression que la machine s'adapte, c'est qu'en fait, il prend du contexte dans la phrase qu'on a donnée grâce à des interactions précédentes. Donc, plus vous lui parlez, plus la machine va finalement pouvoir peut-être affûter une question que vous avez posée. Si vous dites, ah ben non, c'est pas ça, vous précisez votre question, et donc, il lui sélectionne à la fois dans les questions que vous posez et le texte qui a été généré, des mots ou des sous-mots qui vont alimenter finalement la recherche de la suite. Puisqu'en fait, ce qu'on fait juste, c'est essayer de prédire les mots suivants à partir de puzzles de mots qu'on a obtenus, c'est-à-dire de mots qui apparaissent dans plein de contextes différents et on a engrangé ces informations-là dans le modèle.
Guest:
[6:16] Donc derrière, il n'y a pas que ça, si je peux me permettre. Il y a ce modèle génératif, transformeur, et puis derrière, il y a aussi un modèle à base de reinforcement learning, c'est-à-dire en fait grâce à l'interaction, on va faire par essai-erreur aussi optimiser finalement.
Guest:
[6:37] La décision que propose la machine. Mais ça, ça a été fait en amont. C'est en deux couches. C'est aucunement une conversation parce qu'en fait, c'est la prédiction de la phrase qui va suivre à partir d'une mémoire qui a une taille finie, qui n'est pas très grande et qui... Et il n'y a pas non plus de possibilité de calcul, de dénombrer, il n'y a pas d'échelle temporelle. Donc la machine peut vous répondre des choses assez étonnantes. Mais ce qui est quand même assez étonnant, c'est la manière dont il formule des idées, des concepts, des informations vraies ou fausses et qu'il met tout ça en forme. Oui, alors ça, là, ce qu'on constate, c'est la puissance d'imitation de la machine à partir de notre propre langage. C'est-à-dire que lorsque je pars, j'encapsule finalement des informations lexicales, syntaxiques, sémantiques. Et juste par la succession des mots ou par les contextes dans lesquels apparaissent les mots, mécaniquement, par l'ordre des mots, je vais trouver des informations de sens. Et c'est ce que la machine utilise.
Guest:
[7:39] Alors, pourquoi c'est « dangereux » Laurence de Villers ? C'est dangereux de croire tout le temps ce que va dire une machine. Elle ne détient pas la vérité. Je pense que c'est le premier danger. Après, il faut se demander qui construit ces machines, quels sont les humains qui ont modifié les contenus, parce qu'on voit que ça censure. Donc, est-ce que finalement, ça censure de façon égalitaire ? Je ne sais pas, si je prends les religions, est-ce que ce système parle aussi facilement de la religion musulmane, juive ou catholique ? on peut se poser des questions de beaucoup d'ordres de discrimination, d'injustice. Donc, c'est une vision proposée par une machine. Donc, il faut pouvoir l'utiliser intelligemment, c'est-à-dire en comprenant que ce n'est pas de la vérité absolue, qu'on va le challenger, qu'en même temps, ça a un regard sur beaucoup, beaucoup de données, ce qui peut nous apporter une information en plus. Mais globalement, si on était tous à utiliser ça, tous les journalistes, par exemple, on arriverait sûrement à un nivellement vers le bas de tous ces systèmes. Qui font en fait des statistiques autour de ce qu'ils ont engrangé comme informations. Donc l'idée demain, c'est pour un humain de se démarquer de ce discours un peu standardisé qu'on aura à travers ces machines.
Monde Numérique :
[9:07] On le comprend, plus l'intelligence artificielle est capable de brasser une quantité importante de données, et plus elle semble puissante et savante. Ce qui fait la puissance d'une IA, c'est-à-dire d'un modèle de langage, c'est notamment ce qui se passe lors de la phase d'entraînement. C'est aussi à ce moment-là qu'il peut y avoir des problèmes, des biais qui sont générés et que l'on retrouvera ensuite dans les réponses. Écoutez Thomas De Wolf de la société Hugging Face, qui est à l'origine d'un gros modèle français, Bloom, utilisé notamment par le monde universitaire.
Guest:
[9:42] Alors, comment on entraîne ces modèles ? En fait, c'est remarquablement simple. En tout cas, il y a deux phases. La première phase est très simple. On rassemble un grand, grand corpus de textes. Alors là, il y a plein de questions légalétiques. Comment on rassemble ça ? Et ça, c'était un gros focus de Bloom, d'ailleurs. Mais je ne vais peut-être pas rentrer là-dedans parce qu'on est encore une heure. C'est encore un autre sujet, le plagiat, etc. Voilà. Comment on regroupe ? Donc nous, on a fait ça de manière très différente de ce que font les GAFA, justement. On a travaillé... Mais bon, voilà, je ne rentre pas là-dedans, mais c'est très intéressant. Il y a des questions importantes là. Mais bon, une fois qu'on a rassemblé ce corpus de textes, en fait, on le fournit phrase par phrase dans le modèle. Donc le modèle a une entrée et une sortie. Dans les entrées, on met une ligne de texte. Et dans la sortie, le modèle doit prédire le mot qui suit. Donc par exemple, on a un début de phrase où on va dire le ciel est et puis après le modèle doit prédire bleu. Et s'il prédit pas bleu mais un autre mot, on peut calculer une erreur en fait. Alors dans ces modèles on convertit tous les mots en chiffres d'abord, c'est assez amusant en fait. Et après on peut calculer une erreur entre le mot qu'il a prédit et le mot bleu et on peut avec cette erreur modifier les poids du modèle. Donc en fait il est entraîné à prédire juste le mot suivant étant donné un début de phrase. Donc c'est très simple et ce qui est très surprenant c'est qu'en fait quand on fait ça sur un très grand corpus alors un très grand corpus pour Bloom c'est par exemple 300 milliards de mots.
Guest:
[11:06] Donc c'est vraiment très grand et c'est encore un petit corpus en fait l'une des leçons de Bloom c'est que notre corpus était encore trop petit on aurait plutôt dû aller vers les milliers de milliards comment on appelle ça en français ? Les trillions on aurait dû aller dans les trillions de mots c'est vertigineux ce genre de chiffre mais alors quand on fait cette méthode d'entraînement très simple sur des corpus de cette taille là, en fait on voit des sortes de capacités émergentes C'est-à-dire que le modèle se met à pouvoir parler de manière assez convaincante et à comprendre énormément de concepts de la langue et même de concepts du monde. Parce que pour prévoir que le mot qui suit après le ciel est bleu, il faut d'une certaine manière que le modèle d'intelligence artificielle se fasse une sorte de vision interne, une sorte de modèle interne du monde qui dit que le ciel est bleu.
Guest:
[12:01] Attendez, question naïve, le ciel n'est pas toujours bleu ? Oui, donc en fait ce qu'il va faire parce que dans le dataset d'entraînement il y aura des moments où le ciel sera bleu et puis il y aura aussi de temps en temps une autre phrase qui dira le ciel était gris donc en fait le modèle va, grâce à ces informations là un peu contradictoires pas vraiment contradictoires mais disons en quantité différente, il va prédire que dans 80% des cas par exemple le mot suivant c'est bleu et puis dans 20% c'est gris, etc. Et ça, ça s'appelle d'ailleurs la calibration, c'est-à-dire que les modèles sont capables de fournir plusieurs réponses avec une sorte d'ordre et une sorte de probabilités tirées en fait des statistiques de ce corpus. À quoi peux-tu servir ? Je peux vous aider en répondant à vos questions sur une grande variété de sujets, en fournissant des informations, des conseils pratiques, en discutant de sujets d'intérêt et en vous aidant à résoudre des problèmes spécifiques lorsque c'est possible.
Monde Numérique :
[13:05] Jusqu'où peut aller l'intelligence artificielle ? On parle ici de texte, mais l'IA générative, ce sont aussi des images, des vidéos, du son, à la fois en entrée et en sortie, c'est-à-dire que les services d'IA qu'on trouve aujourd'hui sur le web peuvent générer des images, de la musique ou des voix clonées à partir de données ingurgitées préalablement, ce qui pose d'ailleurs des problèmes de propriété intellectuelle. Et puis, on peut aussi s'adresser à ces IA en leur parlant, comme on s'adresserait à une personne, dans n'importe quelle langue, ou en leur faisant voir des choses. C'est ce qu'on appelle la multimodalité. En juin 2024, Romain Huet, ingénieur chez OpenAI, faisait la démonstration dans Monde Numérique de la version de ChatGPT basée sur le nouveau modèle GPT-4O.
Guest:
[13:56] Hey Chad GPT, si je salue les auditeurs de Jérôme en français, est-ce que tu pourrais répéter ce que je dis et le traduire directement en anglais ? Bien sûr, je te peux faire ça. Vas-y, je t'écoute. Alors, bonjour à tous les auditeurs du monde numérique. Très ravi de discuter avec Jérôme aujourd'hui et j'espère que vous allez en apprendre beaucoup sur l'IA. Alors c'est pas mal mais j'aimerais que tu le fasses avec un peu plus d'énergie, Bien sûr je vais ajouter un peu plus d'énergie.
Guest:
[14:39] Ben voilà entre GPT-3 et GPT-4 il y a eu un saut énorme en capacité de raisonnement et on pense qu'on pourrait avoir quelque chose encore de similaire avec les prochaines versions du modèle et ce qui est intéressant, c'est que finalement, ça généralise tellement bien que ça pourrait en fait être un modèle qui à nouveau s'améliore sur tous les domaines. D'ailleurs, il y a beaucoup d'entrepreneurs et de fondateurs qui nous demandent, comment est-ce qu'ils devraient aborder cette réflexion et en fait, il y a deux façons de voir les choses. Il y a la façon de voir les choses qui est de dire on a atteint un plateau, GPT-4 ne pourra plus vraiment s'améliorer ou alors de façon très marginale. L'autre façon de voir les choses, c'est de se dire les modèles vont s'améliorer de plus en plus. Si aujourd'hui ils étaient capables de faire des tâches de juste quelques minutes ça pourrait être bien plus encore à l'avenir et donc on pense vraiment que c'est cette deuxième vision qui est la bonne c'est en tant que fondateur finalement, essayer d'imaginer ce futur un petit peu vivre dans ce futur proche et de commencer à construire les produits en s'imaginant que les modèles vont s'améliorer sans perdre trop son temps finalement sur l'AuGPT4 peut-être à quelques limites, c'est de commencer à vivre dans ce futur et en attendant ces nouveaux modèles.
Monde Numérique :
[15:59] Demain, à quoi ressemblera l'intelligence artificielle ? Des IA multimodales capables d'interagir oralement et visuellement ? Des agents intelligents capables de percevoir l'environnement, de prendre des décisions pour atteindre des objectifs et par exemple réserver un billet de train à notre place ou organiser la production dans une entreprise ? Enfin, le Graal, c'est l'IA générale, une intelligence artificielle qui aura réellement des capacités cognitives comme un humain et qui pourra non seulement jouer aux échecs ou reconnaître des photos de chats, mais aussi traduire des langues, apprendre à piloter un avion ou soigner des humains en comprenant réellement de quoi est fait le monde. Rassurez-vous, ce n'est pas pour tout de suite, selon les experts, mais on y viendra. Si cet épisode vous a plu, merci de laisser 5 étoiles et un commentaire sur votre plateforme d'écoute. Très bon été à l'écoute de Monde Numérique. La semaine prochaine, on se penche sur le problème TikTok.