📚 Tout comprendre – ChatGPT, LLM et IA générative : comment ça marche vraiment ?
Monde Numérique12 août 202517:15

📚 Tout comprendre – ChatGPT, LLM et IA générative : comment ça marche vraiment ?

Depuis le lancement de ChatGPT fin 2022, l’intelligence artificielle générative est sur toutes les lèvres. Mais sait-on vraiment ce qui se cache derrière ? Dans cet épisode spécial Tout comprendre, je vous propose un tour d’horizon complet de l’IA générative : ce qu’elle fait, comment elle fonctionne, ce qu’elle permet… et les nombreuses questions qu’elle soulève.

(Rediffusion du 5 août 2024)

🧠 Un cerveau statistique qui prédit le mot suivant

Un LLM comme ChatGPT ne comprend pas le sens des mots : il calcule la probabilité de la suite la plus pertinente à partir d’un gigantesque corpus de textes. Derrière chaque réponse se cache une mécanique prédictive d’une puissance inédite, dopée aux milliards de paramètres.

🧑‍🏫 Un apprentissage supervisé par l’humain

Les modèles ne se contentent pas d’ingurgiter des données : ils sont peaufinés par des annotateurs humains, qui guident les réponses et corrigent les biais. C’est ce mélange de machine learning et de supervision humaine qui rend les IA génératives crédibles et utiles.

🛠️ Des usages en plein essor, des questions cruciales

Rédaction, traduction, assistance, génération d’images, de sons ou de vidéos : l’IA générative s’impose partout. Mais elle soulève aussi des enjeux majeurs : fiabilité, hallucinations, propriété intellectuelle, souveraineté technologique. L’heure est venue de la maîtriser.

🎧 Ecouter sur votre app de podcast

🎙️ De ChatGPT à Bloom, des Transformers à la multimodalité, vous découvrirez :

  • Ce qu’est un modèle de langage (LLM) et pourquoi ce n’est pas vraiment de l’intelligence

  • Comment ces modèles sont entraînés sur des centaines de milliards de mots

  • Ce qu’est un "perroquet stochastique" et pourquoi il peut se tromper (spectaculairement)

  • Les limites et risques : hallucinations, biais, censure, désinformation

  • Les enjeux éthiques et économiques autour de la production de texte, d’image, de son, etc.

  • Ce que prépare la prochaine génération d’IA : agents autonomes, multimodalité, IA générale…

Avec les contributions de :

  • Laurence Devillers, chercheuse spécialiste des interactions homme-machine

  • Thomas Wolf, de la société Hugging Face (modèle Bloom)

  • Romain Huet, d’OpenAI


: Je suis ChatGPT, un modèle de langage développé par OpenAI. Mon rôle est de vous aider avec des informations, répondre à vos questions et discuter sur divers sujets. Vous n'avez pas pu passer à côté, depuis bientôt un an et demi on ne parle que de lui, Chad GPT et toutes les intelligences artificielles génératives qui sont en train de révolutionner notre manière d'interagir avec les machines. Unissez-vous vraiment ChatGPT et ses cousins. Savez-vous comment ils fonctionnent, tout ce qu'ils permettent de faire, jusqu'où ils vont nous emmener et tous les nouveaux problèmes qu'ils posent. ce que nous allons voir dans cet épisode. vous passez ici pour la première fois, suis Jérôme Colombin, journaliste spécialiste des technologies. Dans le podcast monde numérique cet été on fait le point sur des sujets d'actu brûlant et on en profite pour réécouter quelques-unes des meilleures interviews de ces derniers mois. sommes le 30 novembre 2022. Tout est calme sur le web, mais tout d'un coup, une startup américaine du nom de OpenAI met en ligne un service qui va tout chambouler. ChatGPT. Un peu par surprise. Le PDG de la société, d'ailleurs, Sam Altman, n'a rien dit aux employés de sa compagnie, qui travaillaient sur le sujet depuis des années, mais qui sont pas au courant du lancement commercial du Chatbot d'intelligence artificielle. un outil capable de converser en langage naturel avec les humains. Ça surprend même les spécialistes, qui pourtant connaissent tout à fait ce type d'outil pour l'utiliser depuis longtemps dans leur labo, mais qui ne pensaient pas que l'heure était venue de laisser le grand public accéder à ce genre de joujou. Trop d'imperfection, trop de risques. Pourtant, ce n'était pas la vie de Sam Altman qui a brisé une sorte de tabou en faisant de l'IA générative un produit commercial et plus seulement un objet de recherche. artificielle générative qu'est-ce que c'est ? Tout d'abord ce n'est pas de l'intelligence. Lorsque vous demandez quelque chose à ChatGPT, il ne comprend rien. Il analyse oui les mots que l'on emploie et il recherche des réponses de manière statistique, mathématique, informatique. Je suis conçu pour traiter et générer du langage de manière sophistiquée, mais je n'ai pas de conscience ni de compréhension réelle comme les humains. Si on lui demande «écris une histoire sur un dragon et un chevalier», il va analyser la requête, identifier les mots «histoire», «dragon», «chevalier», consulter sa base de données pour extraire des éléments narratifs, des descriptions, et ensuite il va utiliser des modèles de langage pour générer une histoire, en respectant les conventions, les structures narratives appropriées, etc. Tout ce qu'il a appris. Une IA ne crée pas, elle génère. Une IA n'invente pas car elle ne connaît que le passé. L'intelligence artificielle générative utilise ce que l'on appelle les fameux LLM, Large Language Models, des grands modèles de langage, et les Transformers, des réseaux de neurones, mis au point initialement par des chercheurs de Google qui permettent d'analyser et de générer du texte. Écoutez ce qu'en disait la chercheuse Laurence de Villers dans le monde numérique en février 2023. On travaille sur ces modèles génératifs à partir d'énormes corpuses de données depuis 2017 à peu près. Lambda, par exemple, de Google, c'est un premier système qui permettait de générer une sorte de pseudo-conversation puisque c'est ce qu'on appelle un perroquet stochastique, c'est en fait une machine mécanique qui va générer quelque chose. Et puis y a une part de hasard dans tout ça. Donc la réponse qui est donnée, est en langage proche d'une imitation du langage humain. mais elle est absolument sans pensée, sans intention. Effectivement, du coup, c'est assez bluffant et assez choquant aussi ce qu'elle peut raconter parce que ça peut être tout à fait n'importe quoi. Alors assez choquant, on va en parler les risques contre lesquels vous alertez d'ailleurs. Mais avant ça, qu'on comprenne bien, par exemple le tchat GPT ou demain le service de Google, qui arrive aussi, comment ça fonctionne ? Et notamment, est-ce qu'il s'enrichit de ce que je lui dis ? Est-ce qu'il apprend au fur et mesure ? Non, il n'apprend pas au fur et mesure. fait, ça coûte très cher d'apprendre un énorme modèle comme GPT-3. Alors, ils en font différentes versions. On en est à 3.4, on sera bientôt à 4. Mais le fait d'utiliser une grande masse de données et d'arriver à un modèle de 175 milliards de paramètres, ça ne se fait pas d'un claquement de doigt. Et en tout cas, ce système-là, est au cœur finalement de le tchat GPT. Derrière, ce qui fait qu'il donne l'impression que la machine s'adapte, c'est qu'en fait, il prend du contexte dans la phrase qu'on a donnée grâce à des interactions précédentes. Donc, plus vous lui parlez, plus la machine va finalement pouvoir peut-être affûter une question que vous avez posée. Si vous dites « ah non, c'est pas ça », il se passe... précisez votre question et donc il lui sélectionne... à la fois dans les questions que vous posez et le texte qui a été généré des mots ou des sous mots qui vont alimenter la recherche de la suite. Ce qu'on fait juste, c'est essayer de prédire les mots suivants à partir de puzzles de mots qu'on a obtenus, c'est-à-dire de mots qui apparaissent dans plein de contextes différents et on a engrangé ces informations-là dans le modèle. Derrière, n'y a pas que ça, si je peux me permettre. ce modèle génératif transformer. Et puis derrière, y a aussi un modèle à base de reinforcement learning, c'est-à-dire grâce à l'interaction, va faire par essaie à erreur aussi, optimiser finalement la décision que propose la machine. Mais ça, a été fernament. C'est deux couches. C'est aucunement une conversation parce que c'est la prédiction de la... la phrase qui va suivre à partir d'une mémoire qui a une taille finie, qui n'est pas très grande, qui n'y a pas non plus de possibilité de calcul, de dénombrer, il n'y a pas d'échelle temporelle. Donc la magie peut vous répondre des choses assez étonnantes. Mais ce qui est quand même assez étonnant, c'est la manière dont il formule des idées, des concepts, des informations, vraies ou fausses, et qu'il met tout ça en forme. Oui, oui, là ce qu'on constate, c'est la puissance, en fait, d'imitation de la machine à partir de notre propre langage. C'est-à-dire que lorsque je parle, j'encapsule finalement des informations lexicales, syntaxiques, sémantiques. Et juste par la succession des mots ou par les contextes dans lesquels apparaissent les mots, mécaniquement, par l'ordre des mots, je vais trouver des informations de sens. Et c'est ce que la machine utilise. Alors pourquoi c'est « dangereux Laurence de Villers ? C'est dangereux de croire tout le temps ce que va dire une machine. Elle ne tient pas à la vérité. Je pense que c'est le premier danger. Après, il faut se demander qui construit ces machines, quels sont les humains qui ont modifié les contenus, parce qu'on voit que ça censure. est-ce que finalement ça censure de façon égalitaire ? Je ne pas, si je prends les religions, est-ce que ce système parle aussi facilement de la religion musulmane, juive ou catholique ? On peut se poser des questions de beaucoup d'ordre de discrimination, d'injustice. Donc c'est une vision proposée par une machine. Donc il faut pouvoir l'utiliser intelligemment, c'est-à-dire en comprenant que ce pas de la vérité absolue, qu'on va le challenger, en même temps ça a un regard sur beaucoup beaucoup de données, ce qui peut nous apporter une information en plus. Mais globalement, si on était tous à utiliser ça, tous les journalistes par exemple, on arriverait sûrement à un nivellement vers le bas de tous ces systèmes qui font en fait des statistiques quand même autour de ce qu'ils ont engrangé comme informations. L'idée de demain, c'est pour un humain de se démarquer de ce discours un peu standardisé qu'on aura à travers ces machines. Plus l'intelligence artificielle est capable de brasser une quantité importante de données et plus elle semble puissante et savante. qui fait la puissance d'UNIA, c'est-à-dire d'un modèle de langage, c'est notamment ce qui se passe lors de la phase d'entraînement. C'est aussi à ce moment-là qu'il peut y avoir des problèmes, des biais qui sont générés et que l'on retrouvera ensuite dans les réponses. Écoutez Thomas de Wolf de la société Hugging Face. qui est à l'origine d'un gros modèle français, Bloom, utilisé notamment par le monde universitaire. En fait, c'est remarquablement simple. En tout cas, y a deux phases. La première phase est très simple. On rassemble un grand corpus de textes. Alors là, y a plein de questions légalétiques, comment rassembler ça. Et ça, c'était un gros focus de Bloom, d'ailleurs, mais je vais peut-être pas rentrer là-dedans parce qu'on encore une heure. C'est encore un autre sujet, le plagiat, etc. Comment regrouper. Mais imaginons qu'on... Donc nous, on a fait ça de manière très différente de ce que font les gars, justement. On a travaillé... Mais bon, voilà, je rentre pas là-dedans, mais c'est très intéressant. des questions importantes. Une fois qu'on a rassemblé Scorpus de texte, on le fournit phrase par phrase dans le modèle. Le modèle a une sortie, dans les entrées on met une ligne de texte et dans la sortie le modèle doit prédire le mot qui suit. Par exemple, on un début de phrase où on va dire le ciel est et puis après le modèle doit prédire bleu. S'il ne prédit pas bleu mais un autre mot, on peut calculer une erreur. Dans ces modèles, on convertit tous les mots au chiffre d'abord. c'est assez amusant en fait. Et après on peut calculer une erreur entre le mot qu'il a prédit et le mot bleu et on peut avec cette erreur modifier les poids du modèle. Donc en fait il est entraîné à prédire juste le mot suivant étant donné un début de phrase. Donc c'est très simple et ce qui est très surprenant c'est qu'en fait quand on fait ça sur un très grand corpus, alors un très grand corpus pour Bloom c'est par exemple 300 milliards de mots. Donc c'est vraiment très grand et c'est encore un petit corpus en fait. L'une des L'une des leçons de Bloom, c'est que notre corpus était encore trop petit. On aurait plutôt dû aller vers les milliers de milliards, comme on appelle ça en français, les trillions. On aurait dû aller dans les trillions de mots. C'est vertigineux, ce genre de chiffre-là. Mais alors quand on fait cette méthode d'entraînement très simple sur des corpus de cette taille-là, en fait, on voit des sortes de capacités émergentes. C'est-à-dire que le modèle se met à pouvoir fait parler de manière... assez convaincante et à comprendre énormément de concepts de la langue et même de concepts du monde, parce que pour prévoir que le mot qui suit après le ciel est bleu, il faut d'une certaine manière que le modèle d'intelligence artificielle fasse une sorte de interne, une sorte de modèle interne du monde qui dit que le ciel est bleu. Attendez, question naïve, le ciel n'est pas toujours bleu. Oui, donc en fait, ce qu'il va faire, parce que dans le data set d'entraînement, il y aura des moments où le ciel sera bleu et puis il aura aussi de temps en temps une autre phrase qui dira le ciel était gris. Donc en fait le modèle va, grâce à ces informations là, un peu contradictoires, pas vraiment contradictoires mais disons en quantité différente, va prédire que dans 80 % des cas par exemple le mot suivant c'est bleu et puis dans 20 % c'est gris, etc. Et ça ça s'appelle d'ailleurs la calibration, c'est-à-dire que les modèles sont capables de fournir plusieurs réponses avec une sorte d'ordre et une sorte de probabilité. qui sont tirées des statistiques de ce corpus. À quoi peux-tu servir ? Je peux vous aider en répondant à vos questions sur une grande variété de sujets, en fournissant des informations, des conseils pratiques, en discutant de sujets d'intérêt et en vous aidant à résoudre des problèmes spécifiques lorsque c'est possible. jusqu'où peut aller l'intelligence artificielle. On parle ici de texte, mais l'IA générative, ce sont aussi des images, des vidéos, du son, à la fois en entrée et en sortie. C'est-à-dire que les services d'IA qu'on trouve aujourd'hui sur le web peuvent générer des images, de la musique ou des voix clonées à partir de données ingurgitées préalablement, ce qui pose d'ailleurs des problèmes de propriété intellectuelle. Et puis, on peut aussi s'adresser à ces IA en leur parlant, comme on s'adresserait à une personne. dans n'importe quelle langue ou en leur faisant voir des choses. C'est ce qu'on appelle la multimodalité. En juin 2024, Romain Huet, ingénieur chez OpenAI, faisait la démonstration dans le monde numérique de la version de Tchaat-GPT basée sur le nouveau modèle GPT-4. Et Tchadjipiti, si je salue les auditeurs de Jérôme en français, est-ce que tu pourrais répéter ce que je dis et le traduire directement en anglais ? Bien sûr, je te peux faire ça. Vas-y, je t'écoute. Alors, bonjour à tous les auditeurs du monde numérique. Très ravis de discuter avec Jérôme aujourd'hui et j'espère que vous allez en apprendre beaucoup sur l'IA. Bonjour à tous les écouteurs de Le Monde Numérique. Je très heureux de parler avec vous aujourd'hui. J'espère que apprendrez beaucoup de l'AI. Bien sûr, je vais ajouter un peu plus d'énergie. Bonjour à tous les écoutants de Lamont Numeric. Je content de chatter avec Jerome aujourd'hui et j'espère que obtenir beaucoup d'insights sur l'AI. D'ailleurs, il a beaucoup d'entrepreneurs et de fondateurs qui nous demandent comment est-ce qu'ils devraient aborder cette réflexion. Et en fait, y a la façon de voir les choses. y a la façon de voir les choses qui est de dire on a atteint un plateau, GPT-4 ne pourra plus vraiment s'améliorer ou alors de façon très marginale. L'autre façon de voir les choses, c'est de se dire non, les modèles vont s'améliorer de plus en plus. Si aujourd'hui, il était capable de faire des tâches de juste quelques minutes, ça pourrait être bien plus encore à l'avenir. Et donc, on pense vraiment que c'est cette deuxième vision. qui est la bonne, c'est en tant que fondateur finalement essayer d'imaginer ce futur, petit peu vivre dans ce futur proche et de commencer à construire les produits en s'imaginant que les modèles vont s'améliorer sans perdre trop son temps finalement sur l'AOG Pt4 peut-être à quelques limites, c'est de commencer à vivre dans ce futur et en attendant ces nouveaux modèles. quoi ressemblera à l'intelligence artificielle ? Des IA multimodales capables d'interagir oralement et visuellement, des agents intelligents capables de percevoir l'environnement, de prendre des décisions pour atteindre des objectifs, et par exemple réserver un billet de train à notre place ou organiser la production dans une entreprise. Enfin, le Graal c'est l'IA générale, une intelligence artificielle qui aura réellement des capacités cognitives comme un humain. et qui pourra non seulement jouer aux échecs ou reconnaître des photos de chats, mais aussi traduire des langues, apprendre à piloter un avion ou soigner des humains en comprenant réellement de quoi est fait le monde. Rassurez-vous, ce n'est pas pour tout de suite selon les experts, mais on y viendra. Si cet épisode vous a plu, merci de laisser 5 étoiles et un commentaire sur votre plateforme d'écoute. Très bon été à l'écoute de Montes Numériques. La semaine prochaine, on se penche sur le problème TikTok.

innovation,numérique,informatique,actualités,technologies,tech news,High-tech,