Romain Huet, ingénieur responsable de l'écosystème développeurs chez OpenAI, explique le fonctionnement du nouveau modèle de langage GPT-4o.
En quoi GPT-4o est-il différent de GPT-4 ?
GPT-4o, où le "o" signifie "Omni", est un modèle d'IA conçu pour interagir nativement avec plusieurs types d'entrées et de sorties, incluant le texte, l'audio, les images et les vidéos. Contrairement aux versions précédentes, GPT-4o fonctionne avec un seul modèle pour toutes ces modalités, ce qui permet de réduire la latence des réponses à environ 300 millisecondes, soit l'équivalent d'une conversation humaine. C’est vraiment révolutionnaire.
Ce modèle peut transcrire l'audio en texte, comprendre et analyser des images, et produire des réponses sous forme d'audio, tout en permettant des interactions en temps réel. Cette version intègre également des fonctionnalités comme la génération de contenu dans différents tons et styles, et la possibilité de chuchoter. Tout cela en fait un outil très puissant et versatile pour diverses applications.
Comment voyez-vous l'avenir de l'IA chez OpenAI ?
GPT-4o représente une avancée significative dans la manière dont les logiciels sont développés et utilisés. L'interface entre l'humain et la machine devient de plus en plus fluide, permettant des interactions plus naturelles et personnalisées. À l'avenir, nous nous attendons à ce que les IA deviennent encore plus intégrées dans notre quotidien, rendant les applications plus intuitives et adaptatives. L'objectif ultime d'OpenAI est de continuer à développer ces modèles pour atteindre une intelligence artificielle généralisée, capable de réaliser des tâches encore plus complexes et variées.
A quoi ressemble l’entreprise OpenAI de l’intérieur ?
OpenAI est un endroit unique avec une mission qui nous tient tous à cœur. Les gens sont très passionnés, humbles et brillants. La culture chez OpenAI est collaborative, avec une forte composante de recherche. Nous avons une moitié de l'équipe dédiée à la recherche de pointe en IA, et l'autre moitié concentrée sur le produit, l'ingénierie et le marché. Malgré notre taille croissante, nous conservons une mentalité de startup, capable de travailler rapidement et main dans la main avec nos utilisateurs.
Transcription intégrale
Romain Huet :
[0:02] Hey ChatGPT, je suis en direct avec Jérôme pour enregistrer un épisode de son podcast Le Monde Numérique. Est-ce que tu connais ? Tu peux nous en dire peut-être une phrase ?
ChatGPT :
Yeah, I know the Monde Numérique. C'est un podcast qui explore l'impact de la technologie et du numérique sur notre société. C'est une excellente ressource pour rester informé sur les dernières tendances et innovations dans le domaine du numérique.
Monde Numérique :
[0:27] Bonjour Romain Huet.
Romain Huet :
[0:28] Salut Jérôme et merci beaucoup de me recevoir sur ton podcast.
Monde Numérique :
[0:31] Je suis ravi Romain, tu es français, tu es ingénieur chez OpenAI et tu es responsable de l'expérience développeur, c'est bien ça ?
Romain Huet :
[0:38] C'est ça exactement. Alors pour le dire en quelques mots, en fait l'idée c'est d'aider vraiment les développeurs, les entrepreneurs, les startups à utiliser notre technologie dans leurs propres produits. Donc mon rôle a plusieurs facettes, notamment faire le pont entre les équipes produits et les gens qui utilisent notre technologie, faire en sorte que leur intégration soit fluide et puis aussi montrer un peu l'art du possible parce qu'au fond il y a tellement de choses qu'on peut faire avec l'IA, les possibilités sont assez infinies donc essayer un peu de guider cette communauté de développeurs et d'entrepreneurs pour,
Romain Huet :
[1:08] les aider à mieux incorporer notre technologie Super.
Monde Numérique :
[1:11] Alors on va voir un peu tout ça dans le détail alors je te tutoie parce qu'il y a deux catégories d'invités que je tutoie dans le monde numérique c'est les journalistes et les développeurs voilà, c'est ceux avec lesquels je me sens le plus en connexion, Donc, tu vas nous en dire un peu plus sur l'envers du décor, quand même, cette entreprise et cet outil qui nous fascine, y compris ici, de ce côté-là, de l'Atlantique. On parle beaucoup d'OpenAI pour des tas de raisons. Avec toi, on va vraiment se concentrer sur la technologie, justement, sur l'outil, sur l'API, l'API, etc. Mais d'abord, j'aimerais que tu, peut-être, un peu pour l'anecdote, alors c'est amusant parce que là, on se parle en visio, en fait, pour tout dire, et tu es dans le studio, un studio qui est aménagé chez Open AI, dans lequel d'ailleurs Sam Altman de temps en temps fait des visios, c'est ça ?
Romain Huet :
[1:59] Exactement, je pense que pour ceux qui sont attentifs aux podcasts de Sam, ils reconnaîtront peut-être l'arrière-plan, le mur en briques et les plantes. Quelques podcasts de Sam ont été enregistrés ici, oui.
Monde Numérique :
[2:09] Voilà, donc tu as piqué la place de Sam Altman pour un petit moment, pour quelques minutes. Bon, Romain, d'abord un petit peu, quelques mots sur toi, ton parcours. Donc je le disais, tu es français, comment tu t'es retrouvé comme ça chez OpenAI aujourd'hui ?
Romain Huet :
[2:24] Ouais, alors écoute, moi, j'ai toujours baigné dans l'informatique depuis le plus jeune âge. Donc, j'ai fait une école d'ingénieur à l'INSA, à Rennes. Mais j'ai toujours été passionné par le monde des startups. Je suis entré très tôt, finalement, dans le monde des startups. J'ai d'abord travaillé pour une société qui s'appelait NetVibes, qui était une page d'accueil personnalisée à l'époque du Web 2.0. Et c'est là que j'ai rencontré Tariq Krim, le fondateur. Et puis ensemble, on a démarré...
Monde Numérique :
[2:47] Ouais, vous prenez bien ici en France et dans le monde numérique.
Romain Huet :
[2:49] Exactement. Et donc, Tariq et moi, on a démarré ensuite Jolikla dans 2008. Et Joli Cloud c'était en quelque sorte un OS pour le cloud, c'était très précurseur parce que c'était les tout débuts de HTML5, on prenait un pari qui était le web en tant que plateforme qui allait fonctionner et puis on avait aussi créé le Jolibook qui était carrément un ordinateur qui faisait tourner cet OS, c'était vraiment avant même que l'iPad existe donc c'est fou de se dire que ouais c'était déjà il y a plus de 15 ans je dirais que c'est depuis ces années au fond que la passion pour les plateformes développeurs ne m'a jamais quitté parce qu'en fait quand on crée un operating system il faut déjà réfléchir à comment est-ce que les applications vont être développées et bien sûr tout comme iOS ou Android aujourd'hui c'est pas possible de créer toutes les applications soi-même il faut au contraire un écosystème de développeurs qui puissent créer toutes ces applications tierces et donc c'est après comme ça que cette passion m'a emmené chez Twitter puis ensuite chez Stripe pour essayer en fait de faire en sorte que les développeurs aient des outils faciles d'approche, faciles à utiliser et puis finalement qu'ils arrivent à innover et peut-être même à rendre possible des choses qui étaient soit impossibles soit très fastidieuse. Par exemple, on le sait avec Stripe, ça a rendu la possibilité d'accepter des paiements en ligne très facilement alors qu'avant Stripe, accepter des paiements en ligne, c'était très, très complexe voire décourager la plupart des développeurs.
Monde Numérique :
[4:04] Et donc ? Et donc, tu as voulu te lancer et prendre le train de l'intelligence artificielle et l'aventure de l'IA dès le début.
Romain Huet :
[4:14] C'est ça. Et alors, en fait, après avoir quitté Stripe, je voulais revenir à ma passion initiale, qui était l'entreprenariat. Donc, j'avais commencé à explorer plusieurs pistes à l'intersection entre la crypto puis l'intelligence artificielle. Évidemment, j'avais commencé moi-même à créer des prototypes sur OpenAI. Et j'étais fasciné justement par cette magie de ces modèles de frontières que OpenAI développe. Et c'est là que je me suis dit qu'à force de rencontrer des gens chez OpenAI et de me rendre compte de la densité de talent qu'il y avait, j'ai finalement pris un détour pour les rejoindre. Mais c'est toujours vraiment cette passion pour les plateformes et pour les développeurs qui a continué de me guider. Et en fait, en regardant dans le rétroviseur avec ce qu'on avait fait chez Twitter à l'époque pour justement créer cette innovation par-dessus une API sans quoi Twitter ne serait peut-être pas là aujourd'hui. Puis avec Stripe, et puis maintenant l'IA, c'est de se dire que c'est probablement l'API la plus importante et la plus intéressante qu'OpenAI est en train de créer aujourd'hui, puisqu'elle permet d'accéder à cette intelligence dans n'importe quel produit.
Monde Numérique :
[5:16] Alors tu vas nous dire dans un instant comment ça marche, ce qu'on peut faire avec, etc. Mais avant ça, OpenAI, c'est comment de l'intérieur ? Parce que cette startup aujourd'hui, est-ce que c'est encore justement une startup Oui.
Romain Huet :
[5:30] Bien sûr. Déjà, avant tout, OpenAI, je pense que c'est un endroit qui est assez unique, je dirais, avec une mission qui nous tient tous à cœur.
Romain Huet :
[5:40] En fait, les gens sont très passionnés, très humbles en même temps, vraiment brillants. Et comme je disais moi j'avais prévu de revenir entrepreneur après Stripe et c'est finalement en passant de plus en plus de temps avec ces gens d'OpenAI et en voyant aussi d'anciens collègues que j'admirais rejoindre OpenAI et que je me suis dit qu'il se passait quelque chose d'assez unique, à la fois pour la densité de talent mais aussi pour les avancées technologiques que ça avait la culture chez OpenAI est top tout le monde collabore beaucoup c'est évidemment avant tout un labo de recherche donc on a toujours une grosse moitié d'OpenAI qui est avant tout des chercheurs qui sont toujours à la pointe de l'IA et puis de plus en plus maintenant une composante produit, engineering et puis aussi, go to market pour aider nos utilisateurs et nos clients, mais oui pour tout répondre c'est clairement une startup c'est à dire qu'on est toujours capable d'aller assez vite de travailler main dans la main avec nos utilisateurs et puis c'est très passionnant il se passe des choses chaque semaine c'est.
Monde Numérique :
[6:36] Une startup à l'échelle américaine vous êtes combien aujourd'hui ?
Romain Huet :
[6:39] On est un peu plus de 1000 personnes maintenant ce qui est effectivement une start-up qui est plus minuscule mais en même temps qui est encore extrêmement petite par rapport aux géants de la tech et.
Monde Numérique :
[6:49] La vie en Californie c'est comment Romain ? bon tu la connais mais... Tu l'aimes toujours, cette vie californienne ?
Romain Huet :
[6:57] Oui, surtout côté professionnel. Je pense que c'est un environnement qui est hyper stimulant, qui est hyper positif. Les gens sont toujours en train de réfléchir au futur et en train d'essayer de pousser l'innovation plus loin. Donc, c'est très chouette d'être au cœur de la Silicon Valley, de se dire que oui, tu peux prendre un Wemo pour aller au travail. Et puis finalement, tu as l'impression de toujours vivre un petit peu dans ce futur proche, on va dire, en étant ici à San Francisco. Et moi, j'avais déménagé ici en 2015, à la base, pour Stripe. Et les deux dernières années notamment avec Covid etc j'avais un petit peu quitté SF j'étais entre la Côte Est et puis Paris ce qui m'a permis aussi de reconnecter pas mal avec l'écosystème français et parisien et puis, en revenant finalement en Californie avec tout ce qui se passait avec l'EI et notamment avec OpenEI finalement ça m'a permis d'avoir un petit peu un regard nouveau sur la Californie et puis c'est chouette de voir que l'énergie est de retour, tous les gens qui sont on va dire plutôt côté start-up entreprenariat sont à nouveau de retour pour donner un peu une nouvelle,
Romain Huet :
[7:54] effervescence à San Francisco, donc c'est chouette à voir.
Monde Numérique :
[7:56] Oui, mais c'est intéressant parce que tu le disais, tu gardes une connexion avec la France. Tu étais à Vivatech il n'y a pas très longtemps.
Romain Huet :
[8:01] En mai dernier.
Monde Numérique :
[8:03] C'est d'ailleurs là qu'on s'est vus, qu'on s'est rencontrés. Tu m'as fait les premières démos de ChatGPT 4.0, mais j'espère que tu vas encore nous montrer des choses là. Quel regard tu portes sur la France aujourd'hui, sur l'écosystème et sur l'innovation, sur la tech française d'une manière générale ?
Romain Huet :
[8:19] C'est d'abord extrêmement impressionnant à quel point tout a changé. On parlait tout à l'heure de mon parcours et c'est vrai que quand moi, j'avais démarré Joliklad en 2008, maintenant avec Tariq, l'écosystème était extrêmement petit. En fait, on se connaissait tous, on va dire, en tant que fondateur ou développeur dans la France. Maintenant, c'est jour et la nuit, on va dire. La France, déjà, est reconnue pour son talent à la fois en engineering mais surtout, encore plus, pour la partie AI. Donc, Mais même en général, l'écosystème et les startups sont vraiment démocratisés maintenant. On voit qu'il y a beaucoup d'énergie, tous les ingrédients sont réunis, et c'est ce qui manquait un peu il y a 15 ans. Au fond, il y a des incubateurs, les fonds d'investissement sont enfin ici à Paris. Donc ouais, tout a vraiment changé. Et là, on a organisé un événement à Paris pour Open AI, donc pendant cette semaine de VivaTech. Et ce qui était impressionnant, justement, c'est de voir l'énergie de cet écosystème français qui tous sont en train de réinventer le futur avec de l'AI. Plein de belles startups à Paris comme Dust Nabla Photoroom enfin beaucoup d'autres et c'est fou de se dire ok la France a vraiment tous les ingrédients pour réussir maintenant et c'est chouette à voir comparé aux premières années où finalement moi j'étais,
Romain Huet :
[9:30] avec Tarek en train de construire Netvibes et Jolikland.
Monde Numérique :
[9:33] Ouais bien sûr tu sais que moi j'étais il y a quelques temps à un événement au ministère des finances à Paris c'était la remise de médaille de Luc Julia que tu dois connaître, il a été décoré par le ministre des finances et donc il y avait tout un discours sur, les ingénieurs français, les mathématiciens français où on se félicite qu'il y ait des mathématiciens formidables qui donnent des ingénieurs formidables mais Bruno Le Maire le ministre disait ok mais maintenant il ne faudrait pas que les américains nous les piquent tous bon bah toi tu es l'exemple du français qui a été piqué par Sam Altman.
Romain Huet :
[10:07] Oui bah écoute je pense que ce qui est intéressant au fond c'est d'avoir aussi de la la capacité d'avoir la cross-pollination en quelque sorte, des gens qui sont à apprendre des choses dans l'écosystème de Silicon Valley et qui après peuvent ramener ça en France. On a vu par exemple avec Charles qui a créé Alan en France. Charles avait passé quelques années avant chez Twitter et Instagram et c'est chouette de pouvoir prendre justement un peu ses compétences de l'intérieur de SF et de les ramener ensuite en France pour créer Alan quand il l'a fait. Je pense qu'à terme, il y aura de plus en plus de ça et je pense que c'est bien pour l'écosystème français. On a beaucoup de talent, comme tu le dis, Je pense que ce qui manquait seulement à l'écosystème français pendant les premières années, c'était justement l'expérience. C'était d'avoir vu de l'intérieur une startup qui grandit vite, avoir vu de l'intérieur comment structurer une startup qui grandit vite, à la fois sur le reculement, sur le produit, etc. Et je pense que l'avoir vécu de l'intérieur au moins une fois donne beaucoup plus de compétences ensuite pour le refaire et pour créer sa propre startup par la suite.
Monde Numérique :
[11:03] Bon, donc, si on interprète tes paroles, on se dit que peut-être un jour, tu reviendras. Tu reviendras en France. Voilà, écoutez-nous.
Romain Huet :
[11:09] Pourquoi pas ?
Monde Numérique :
[11:09] Bon, allez, on va parler un peu de ChatGPT, Romain. ChatGPT, on sait déjà tout. Ça fait deux ans et demi qu'on en parle. Mais pour les gens qui nous écoutent, moi, j'aime bien reprendre les choses un peu à la base. Quand tu dois le présenter, la première fois que tu as expliqué à ton papa, à ta maman, ce qu'était ChatGPT, comment tu as expliqué ça ? Comment tu as présenté ça ?
Romain Huet :
[11:31] Ouais alors déjà c'est même pas deux ans et demi c'est seulement un an et demi je crois oui c'est vrai le temps passe très vite mais c'est vrai qu'on y a on a l'impression que maintenant c'est un produit tellement.
Romain Huet :
[11:40] Immersé dans notre quotidien qu'on a du mal à s'en passer et ouais je les y ai dit t'inquiète pas alors ouais déjà je pense que si on prend un peu de recul ce qu'on fait chez OpenAI c'est avant tout ancrer dans la recherche donc en gros on développe des modèles de manière sécurisée et le but c'est de les déployer dans le monde réel ensuite on a cette approche un peu de déploiement itératif, comme on l'appelle, c'est l'idée d'introduire ces modèles dans des produits par étapes, alors tel que ChatGPT et l'API. Et ce qui est intéressant, c'est que ChatGPT est un peu né de ce process, mais c'était à la base censé être une démonstration, finalement, de ce que les modèles étaient capables de faire, notamment avec GPT 3.5 à l'époque, en 2022. Ça a pris tout le monde par surprise, nous y compris, parce que tout le monde a commencé à utiliser ça. Alors, pour revenir à ta question, ChatGPT, de façon très simple, c'est en gros une manifestation de ces modèles de recherche, une interface extrêmement simplifiée, dans lequel on peut avoir une conversation en langage complètement naturel, en français, en anglais, dans n'importe quelle langue. Et c'est un peu comme si ChatGPT était à l'écoute, un expert qui peut parler avec nous de n'importe quel sujet et qui peut répondre à des questions, qui peut générer des idées, qui peut aider à résoudre des problèmes et bien plus encore. Donc, c'est vraiment un petit peu, même si c'est juste une interface très, très simple, en fait, ce qui se cache derrière est assez incroyable parce qu'au fond, n'importe quel sujet amène à une discussion Et c'est un peu comme si on avait un expert avec nous pour discuter de tout.
Monde Numérique :
[13:07] Donc derrière, ce sont les fameux LLM, les grands modèles de langage. Ça veut dire concrètement des algorithmes et puis des énormes data centers et des processeurs qui moulinent en permanence.
Romain Huet :
[13:18] Oui, alors pour les gens qui sont peut-être un peu moins techniques, si on essaie de simplifier un peu comment tout ça fonctionne, c'est que comme tu le dis, c'est des LLM qu'il y a derrière, des modèles de langage. Et en fait, la façon la plus simple dont on peut l'expliquer, c'est qu'en gros, quand on écrit une phrase dans ces modèles, ou dans Chat GPT par exemple, ça essaie de prédire les mots les plus probables dans une phrase avec une analyse de quantité de données textuelles assez énorme. Et donc, on a une technologie de deep learning, des réseaux de neurones, pour comprendre tout le contexte basé sur tout ce que l'algorithme a pu voir avant, des millions de textes, pour qu'il apprenne les structures linguistiques, pour qu'il apprenne les styles, les informations factuelles en elles-mêmes. Et donc, quand tu lui poses une question, quand on commence à engager avec le modèle, il a appris tout ce qu'il fallait pour produire des réponses ensuite pertinentes et cohérentes. Donc, c'est un peu la forme simplifiée dont on peut l'expliquer. Des modèles qui sont probabilistes et qui prédisent le prochain mot. Mais derrière ce prochain mot, ce qui est assez magique, c'est qu'au fond, il y a une certaine compréhension, Il y a un certain raisonnement qui est exprimé pour que finalement, ça fasse sens dans les réponses.
Monde Numérique :
[14:25] Même si, comme le dit Luc Julia, l'intelligence artificielle n'existe pas, entre guillemets, et c'est donc des probabilités, tu l'as dit, ce qui fait que ça donne des résultats fantastiques, sauf quelquefois, il s'embrouille un peu les pinceaux, c'est les fameuses hallucinations. Alors, l'élément très important, c'est donc cette fameuse API, cette API en anglais, dont tu t'occupes particulièrement, elle sert à quoi ?
Romain Huet :
[14:52] Pour donner le contexte, aujourd'hui, comme on le disait, on démarre toujours chez OpenAI avec la recherche, avec ces modèles que l'on crée aujourd'hui, GPT-4 et GPT-4.0, dont on parlera peut-être tout à l'heure. Ces modèles se manifestent d'une part dans ChatGPT, le produit phare évidemment que tout le monde connaît aujourd'hui avec plus de 100 millions d'utilisateurs actifs chaque semaine, mais le second produit qui est peut-être moins connu, mais qui est finalement le premier produit à disposition c'est ce qu'on appelle les pillages et donc les pillages c'est ce qui permet aux développeurs et aux entreprises de toute taille d'intégrer ces modèles des hayes dans leurs produits donc c'est c'est la possibilité de prendre cette magie des lm en quelque sorte et de l'appliquer à l'intérieur de n'importe quel service n'importe quelle application que ce soit sur le web sur mobile ou ailleurs et de ne pas juste passer par l'interface de Chat GPT est ce que ça signifie c'est que ça nous permet en fait de démocratiser ces modèles des hayes de pointe de façon différente. C'est-à-dire qu'en fait, dans ChatGPT, c'est un cas d'usage qui est à la fois très vaste, très générique.
Romain Huet :
[15:54] Qui peut répondre à tout avec une interface que l'on crée, mais ce qui est intéressant aussi, c'est de créer cet écosystème où les modèles d'AI peuvent se manifester de façon différente. Et donc pour nous on pense que travailler justement avec les développeurs travailler avec les entreprises c'est une stratégie qui est très importante pour notre mission parce qu'au fond on sait que les développeurs c'est souvent les pionniers c'est souvent les inventeurs c'est souvent ceux qui vont imaginer un peu le futur, et c'est pas à nous seuls de le construire au final et donc on pense vraiment que, en mettant nos modèles d'AI à disposition de ces entrepreneurs et de ces fondateurs on verra plein de choses des cas d'usage qu'Oponea et nous-mêmes n'aurons pas la possibilité de créer. Donc, c'est tout le but de l'API et c'est tout le but de mettre à disposition ces modèles et c'est comme ça aussi qu'ils nous font avancer notre mission.
Monde Numérique :
[16:46] Et donc, toi, ton travail, c'est ça, c'est de communiquer avec les développeurs dans les entreprises qui sont vos clients, qui utilisent votre API pour les aider à l'implémenter, à l'utiliser, etc.
Romain Huet :
[17:01] Exactement. Donc, une fois qu'on a cette API, en fait, ce qu'on veut faire en sorte, c'est que toutes les entreprises et les développeurs puissent l'intégrer de la façon la plus simple possible. Donc, ça veut dire, par exemple, concrètement, avoir une documentation et un onboarding très simple pour les développeurs. Comment est-ce qu'en quelques lignes de code, on ramène la magie d'un GPT-4 à l'intérieur de son produit ? Faire en sorte que cette intégration soit très fluide, faire en sorte que les développeurs aient finalement tous les outils dont ils ont besoin. Ça peut être des SDK, ça peut être des démonstrations un peu pour comment intégrer cette technologie. Les inspirer, comme je disais tout à l'heure aussi, parce qu'en fait, on a beaucoup d'entreprises qui veulent se renouveler, se réinventer avec l'AI, mais ils ont besoin de s'imaginer un peu comment l'appliquer dans leur propre process quotidien ou dans leur propre produit. Donc, essayer un peu d'imaginer les choses avec eux. Et puis, on a aussi une très grande communauté de développeurs aujourd'hui sur OpenAI. On a déjà 3 millions de développeurs qui créent des applications avec notre API. Et donc c'est un peu cette idée aussi d'interagir avec cette communauté faire en sorte que à la fois online et en physique.
Romain Huet :
[18:08] Ces développeurs finalement aient tout ce qu'ils veulent et qu'on soit leur écoute pour voir un peu où est-ce qu'on doit aller on a d'un côté évidemment toute cette recherche qui avance constamment, avec des modèles de pointe mais en parallèle de ça on est aussi dans les détails chaque jour avec les développeurs pour faire en sorte que les petites fonctionnalités dont ils ont besoin comment essayer de faire marcher, que ce soit par exemple notre API pour créer des assistants ou notre API pour batcher des requests, faire en sorte que tout ça réponde à leurs besoins. Et c'est en fait les utilisateurs qui guident notre roadmap de ce côté-là, puisqu'on essaye au maximum de faire en sorte d'améliorer leur quotidien.
Monde Numérique :
[18:45] Donc, il y a des tas d'entreprises très différentes les unes des autres qui
Monde Numérique :
[18:49] utilisent aujourd'hui les APIs. Tu as quelques exemples ? C'est utilisé pour quoi, ChatGPT, dans des entreprises aujourd'hui ?
Romain Huet :
[18:56] Il y a plusieurs choses. Déjà, tu mentionnes ChatGPT. Aujourd'hui, ChatGPT, c'est un outil qui est extrêmement vaste.
Monde Numérique :
[19:02] Oui, je n'aurais pas dû dire ChatGPT. En fait, c'est GPT4 via l'API.
Romain Huet :
[19:07] Mais il y a les deux, en fait, parce que tu vois, pour reprendre ton point sur ChatGPT, par exemple, tu prends une société comme Moderna. Moderna a complètement adopté ChatGPT Enterprise dans toute l'organisation, dans toutes les équipes même, et ça leur permet d'accélérer leur process, améliorer leur productivité. Il y a même des usages assez étonnants tu prends par exemple chez Moderna la team Legal en fait à 100% d'adoption de ChatGPT les juristes pour.
Romain Huet :
[19:35] Analyser des contrats, répondre à des questions etc donc ça c'est cette partie ChatGPT Enterprise donc c'est une adoption très rapide, pour ce qui est un peu de cette productivité et comment est-ce qu'on offre à chaque employé la possibilité de faire mieux, ses tâches au quotidien plus rapidement plus efficacement et alors par contre pour revenir effectivement sur le point sur l'API, beaucoup de gens qui intègrent nos modèles nos modèles d'AI déjà dans leurs produits et leurs services moi un des usages par exemple qui m'a beaucoup fasciné récemment c'était cette startup qui s'appelle Cognition Labs qui a créé Devin, donc eux ils ont carrément créé un software engineer donc AI, et donc ce que ça veut dire c'est que c'est pas seulement la possibilité d'écrire du code, c'est aussi la possibilité de se dire ok j'ai une tâche complexe je vais la découper en plusieurs sous-tâches, je vais être capable d'aller chercher de la documentation en ligne si je ne sais pas comment fonctionne une API, je vais écrire du code, je vais écrire des tests, si mes tests ne passent pas, je vais essayer de corriger ce qui ne marchait pas, je vais faire des pull requests sur GitHub, etc. Donc c'est vraiment cette AI Software Engineer, et ce qui est fou, c'est que ça, c'est basé sur GPT-4. Et donc c'est vraiment une incarnation aussi assez fascinante d'un agent intelligent qui est un programmeur, finalement, qui peut travailler avec nous.
Monde Numérique :
[20:49] C'est ce qu'on appelle l'agent intelligent, c'est ça, et on prévoit même que demain alors aujourd'hui c'est notamment pour les développeurs à travers cet exemple mais demain sera peut-être pour monsieur, madame, tout le monde pour, on lui dira va m'acheter un billet d'avion trouve-moi le meilleur billet en fonction de mon agenda en fonction de mes critères de confort habituels, etc.
Romain Huet :
[21:11] Bien sûr et pour ça il manque encore quelques petites choses la première c'est évidemment qu'il faut des capacités de raisonnement qui sont toujours meilleures en fait et on le voit d'ailleurs D'ailleurs, c'est toujours les startups qui sont les pionniers et qui poussent vraiment les modèles dans leur retranchement. Moi, qui passe mon quotidien à parler avec des fondateurs, par exemple, ils me disent « GPT-4, c'est très bien sur ça, mais si seulement ils pouvaient faire ça, et si seulement il manquait un petit peu ça. » Donc, on voit cet appétit pour aller encore plus loin. Mais effectivement, il manque aussi un peu de l'accès au contexte. Je pense que plus les modèles ont accès à des contextes, qui tu es, ce que tu as dans ton quotidien, l'accès à ton calendrier peut-être, comme tu l'as indiqué. Le modèle peut encore résonner mieux, puisqu'il a plus de contexte à sa disposition. Mais donc, ouais, je pense que plein d'exemples fascinants. Devin était un de mes favoris récemment de Cognition, mais on le voit aussi...
Monde Numérique :
[22:01] On en a beaucoup parlé, d'ailleurs. Dans le milieu des développeurs, ça fait beaucoup de bruit, cette annonce.
Romain Huet :
[22:05] Bien sûr, ouais. Je pense qu'encore une fois, ce qui est marrant, c'est que, tu vois, GPT-4 est sorti il y a maintenant près d'un an et demi, et au fond, c'est là aussi qu'on doit insister sur le fait que, même si ces modèles de pointe sont déjà très performants et on peut faire plein de choses avec, il y a aussi cette nécessité de faire des produits et d'incarner ces modèles dans des produits qui finalement sont faciles d'utilisation et qui les utilisent le mieux possible.
Romain Huet :
[22:28] Et je pense que c'est là que Cognition a fait quelque chose de très bien, c'est qu'ils ont trouvé comment packager ce produit de façon utile pour les développeurs. Mais évidemment, il n'y a pas que les cas d'usage de coding et de programmation. On a des entreprises à grande échelle aussi, comme en France ou en Europe, disons. On a vu le cas d'usage de Klarna récemment. Donc, l'ARNA a utilisé les modèles d'OpenAI pour réinventer un peu la façon dont ils faisaient le support client. Et donc là, ils ont été capables d'automatiser 2,5 millions de conversations avec GPT-4 en l'espace de quelques semaines, de sauver énormément des coûts, mais aussi d'améliorer la qualité de service pour leurs clients. Je crois que le temps d'attente était tombé de 11 minutes à 2 minutes, enfin, pas de temps d'attente, mais le temps de traiter complètement un ticket.
Romain Huet :
[23:16] Aux États-Unis, on a aussi des startups comme Ramp, que tu connais bien, qui réinventent beaucoup de leurs process avec de l'IA et qui intègrent aussi l'IA dans plein de leurs fonctionnalités qui sont visibles aux utilisateurs donc tout ça c'est grâce à l'API au fond et en France on a aussi plein de startups qui utilisent nos modèles, comme Dust que je mentionnais tout à l'heure Nabla dans la santé quand il y a une conversation entre un médecin et un patient ou bien alors Photoroum aussi qui fait d'édition d'images mais qui peut aussi utiliser nos modèles pour faire de la labellisation etc donc c'est ça qui est fascinant au fond dans mon quotidien je dirais c'est de travailler avec tous ces gens qui repoussent les limites des modèles et qui en font des choses que nous-mêmes on n'aurait pas pu imaginer.
Monde Numérique :
[23:59] Et ça contribue à co-construire GPT GPT-4 5, 6, 7 quoi.
Romain Huet :
[24:07] Exactement et je pense que c'est aussi encore une fois lié à cette mission de créer l'intelligence artificielle généralisée, de faire en sorte de la démocratiser au plus grand nombre, qu'elle soit bénéfique et dans le sens de cette mission, ça prend tout son sens en gros puisqu'on veut faire en sorte que tous ces produits aussi contribuent à cette mission.
Monde Numérique :
[24:27] Alors justement la dernière version c'est le fameux GPT-4O qui a été présenté au mois de mai dernier je crois, voilà qui est spectaculaire enfin voilà on était tout le monde s'est pâmé on en a fait des tonnes dans tous les médias on a montré expliqué etc. Avec juste quelques petites vidéos il n'est pas encore disponible en France il est sorti aux Etats-Unis ou pas encore là au moment où on se parle en juin 2024 ça arrive bientôt. Ça arrive bientôt.
Romain Huet :
[24:58] Oui, ce sera dans les prochaines semaines. Ok.
Monde Numérique :
[25:01] On n'y est pas encore.
Romain Huet :
[25:04] Exactement. C'est un aperçu qu'on a donné justement il y a quelques semaines quand on l'a introduit en mai. Et puis, encore une fois, c'est dans cette approche de déploiement itératif de montrer d'abord les choses et puis ensuite faire en sorte qu'on a tout ce qu'il faut à la fois au niveau infrastructure, mais aussi au niveau risque, sécurité de déploiement de ces nouveaux modèles. Donc, ça arrive bientôt.
Monde Numérique :
[25:23] Alors toi, tu as de la chance, tu l'as déjà sur ton smartphone GPT-4O. Tu peux nous montrer un peu comment il marche ? Puisque la particularité, c'est donc des délais de réponse très rapides et puis une espèce d'expression qui fait qu'on a quasiment l'impression de parler avec quelqu'un, quoi.
Romain Huet :
[25:41] Oui, alors peut-être pour expliquer rapidement à l'audience comment ça fonctionne, c'est que d'abord, on l'a appelé GPT-4-O et O pour Omni. Et pourquoi Omni ? Parce qu'en fait, c'est un Omni modèle. Et ce que ça veut dire, c'est qu'il a été conçu pour interagir nativement, pas seulement avec le texte, mais aussi avec des entrées sous forme d'audio, images, vidéos, et aussi en étant capable de sortir des réponses dans ces mêmes formats. Et donc, ce que ça veut dire aussi, c'est que la latence, comme tu le disais, est très faible. En moyenne je pense 300 millisecondes ce qui est à peu près en gros l'équivalent d'une conversation avec un humain et au delà de ça donc cette capacité de comprendre visuellement et comprendre l'audio.
Romain Huet :
[26:23] Qui est vraiment fascinante et donc pour comparer finalement ce voice mode qu'on peut effectivement montrer dans quelques secondes, la différence c'est que, avant pour faire ce genre de choses et avec le voice mode que les gens ont peut-être déjà essayé dans ChatGPT, il nous fallait il nous fallait en fait trois modèles pour pouvoir faire ça. Le premier, c'était un modèle pour transcrire l'audio en texte. Ensuite, le deuxième modèle qui allait avoir la capacité de raisonnement, donc GPT-4. Mais ensuite, il nous fallait un troisième modèle aussi pour faire le texte vers l'audio, donc le texte to speech. Et donc, c'est en faisant ces trois modèles mariés ensemble qu'il y avait un petit peu de latence et qu'on n'avait pas cette conversation naturelle. On pouvait avoir trois, quatre secondes finalement de latence dans l'usage. Donc, c'est là que GPT-4.0 et une vraie révolution, c'est qu'on a maintenant un OmniModel, donc le O pour Omni.
Monde Numérique :
[27:12] Donc, tout se fait avec un seul modèle, en fait. Tout a été intégré.
Romain Huet :
[27:16] Exactement, oui. Alors, on peut essayer de le prendre ici. J'ai un iPhone. Alors, évidemment, on n'a pas encore travaillé le français, donc il y aura probablement un petit accent américain dans les réponses, mais essayons.
Monde Numérique :
[27:32] On lui pardonne.
Romain Huet :
[27:34] Hey, ChatGPT. Alors, je suis en direct avec Jérôme. pour enregistrer un épisode de son podcast Le Monde Numérique. Est-ce que tu connais ? Tu peux nous en dire peut-être une phrase ?
ChatGPT :
Yeah, I know the Monde Numérique. C'est un podcast qui explore l'impact de la technologie et du numérique sur notre société. C'est une excellente ressource pour rester informé sur les dernières tendances et innovations dans le domaine du numérique.
Merci, ChatGPT. Alors, si je salue les auditeurs de Jérôme en français, est-ce que tu pourrais répéter ce que je dis et le traduire directement en anglais ?
ChatGPT :
Bien sûr, je te peux faire ça. Vas-y, je t'écoute.
Romain Huet :
Alors, bonjour à tous les auditeurs du monde numérique. Très ravi de discuter avec Jérôme aujourd'hui et j'espère que vous allez en apprendre beaucoup sur l'IA.
C'est pas mal, mais j'aimerais que tu le fasses avec un peu plus d'énergie.
ChatGPT :
Bien sûr, je vais ajouter un peu plus d'énergie. Hello to all the listeners of Le Mans Numeric. I'm thrilled to be chatting with Jérôme today, and I hope you'll gain a lot of insights about AI. How's that? Perfect.
Romain Huet :
Merci beaucoup, ChatGPT.
Monde Numérique :
[28:45] Incroyable. Alors, la réactivité est hallucinante. En plus, je précise qu'il n'y a pas de trucage, là.
Romain Huet :
[28:51] Ah, mais non, tout est en live avec mon ami Nistie.
Monde Numérique :
[28:54] On n'a pas fait de coupe, c'est d'une seule traite, etc.
Romain Huet :
[28:58] Exactement. Alors, évidemment, comme je le disais, l'accent était encore un peu Amérique du Nord mais tout ça arrivera bientôt dans un français bien plus bien plus français, donc voilà c'est intéressant ouais et ce qui est intéressant je pense de souligner c'est qu'on a parlé de la latence mais ce qui est aussi intéressant c'est des choses comme la possibilité d'interrompre le modèle donc par exemple quand il a commencé à parler j'ai pas eu besoin d'attendre qu'il termine je peux l'interrompre donc c'est vraiment comme dans une conversation assez naturelle ça c'est incroyable, et l'autre chose aussi qu'on a peut-être aperçu, je ne sais pas si ça marchait très bien dans le micro avec mon téléphone, mais c'est la possibilité aussi de demander de générer des tons différents. Non, je veux que tu sois un petit peu plus engagé, je veux que tu sois un peu plus énergique et être capable d'avoir ce genre de réactivité dans la voix, dans l'intonation. Quelque chose aussi d'assez nouveau en fait. Pas seulement la capacité de raisonnement, mais vraiment cette idée d'avoir une conversation très naturelle.
Monde Numérique :
[29:50] Tu peux même lui demander de chuchoter par exemple ?
Romain Huet :
[29:53] On pourrait. alors attends je vais essayer de le ramener avec moi hop ChatGPT est-ce que tu pourrais chuchoter un secret sur les Jeux Olympiques à Paris ?
ChatGPT :
Je ne devrais probablement pas te le dire, mais il se dit que la cérémonie d'ouverture va inclure une performance spectaculaire sur la scène. Mais chut, c'est encore un secret.
Monde Numérique :
[30:22] Mais Romain, comment est-ce que tu ne deviens pas fou en discutant avec une machine ? Ce n'est qu'une machine !
Romain Huet :
[30:29] Évidemment, évidemment.
Monde Numérique :
[30:30] Tu n'es pas tombé, je ne sais pas, tu n'es pas devenu ton meilleur ami en vrai à qui tu confies tous tes secrets, etc. ?
Romain Huet :
[30:37] Non, mais je pense qu'en fait, c'est quand même un outil avant tout. C'est un outil qui est quand même très pratique, incroyable au quotidien. Enfin, maintenant, on s'imagine... Moi, je ne vais plus m'imaginer voyager dans le monde de la même façon parce que j'ai un traducteur en temps réel dans toutes les langues. On peut s'imaginer, en fait, que la barrière de la langue soit tombée pour tout
Romain Huet :
[30:52] le monde maintenant. Donc ça, c'est assez fascinant. Et non, je pense que c'est intéressant aussi de se dire que c'est un outil. Et même si on peut interagir avec la voix de façon extrêmement fluide dans toutes les langues comme on l'a montré là, on a choisi de nommer ChatGPT comme un programme informatique en quelque sorte on n'a pas choisi de le nommer comme une personne et je pense que ça c'est aussi intéressant, et donc malgré l'apparence humaine des réponses et des conversations je pense que ça reste un langage basé sur comme on l'a dit des algorithmes des données donc on investit beaucoup aussi sur la recherche la sécurité, l'éthique des modèles mais non c'est assez fascinant d'avoir cet outil en fait dans la poche ou sur son ordinateur au quotidien.
Monde Numérique :
[31:33] Donc, vous vous posez aussi ces questions. Et quand je dis vous, c'est-à-dire même les développeurs qui ne développent pas ça, est-ce que vous vous dites, attention, parce que là, si ça devient trop humain, il risque d'y avoir de la confusion, ça peut provoquer, je ne sais pas, des problèmes psychologiques même, etc.?
Romain Huet :
[31:52] En fait, on est très conscients des enjeux. On s'efforce toujours de communiquer clairement sur la nature, les limites des technos. Là, par exemple, je crois que GPT-4O, une des raisons pour lesquelles on est encore en train de graduellement le sortir, c'est qu'on s'efforce de communiquer sur tout ça. GPT-4O, en particulier, il a reçu des tests super approfondis de plus de 70 experts pour justement identifier les risques, notamment avec ces nouvelles modalités comme l'audio. Et donc, c'est avec ces résultats qu'on se renforce toujours et que nos modèles en gros, soient déployés de façon sécurisée à chaque fois donc ouais on engage beaucoup avec beaucoup de parties justement sur tout ce qu'on fait c'est encore une fois une approche importante pour nous chez OpenAI c'est de montrer d'un point de vue recherche les avancées qu'on a et en même temps avoir ce déploiement, très itératif en engageant en fait tous les parties impliquées pour faire en sorte qu'on le fasse du mieux possible et que encore une fois ça soit dans le sens de la mission que ce soit bénéfique à toute l'humanité.
Monde Numérique :
[32:51] Alors tu disais, la particularité c'est qu'il est omnicanal, est-ce qu'il peut comprendre nos émotions, le ton de la voix, nos expressions de visage, des choses comme ça, ou est-ce qu'il pourra dans le futur interpréter ça également ?
Romain Huet :
[33:10] Oui, alors déjà, je pense que quand on a les capacités de vision avec la caméra, ChatGPT peut identifier, par exemple, si on est plutôt triste ou si on a un sourire, etc. Donc, je pense que tout ce qui est reconnaissance d'expression du visage, reconnaissance de ce qu'il voit, la vision est aussi très impressionnante. Et pour comparer, en fait, pour les auditeurs aussi, c'est que jusqu'à présent, GPT-4, notamment GPT-4 Turbo, avait des capacités de vision, mais basées sur une image statique. Donc, vous pouvez prendre une photo, l'envoyer à ChatGPT et ensuite avoir des résultats. Là, maintenant, on a une vision en temps réel, donc on peut lui montrer ce qu'on voit dans le monde réel. On a vu l'exemple de Be My Eyes, par exemple, qui était assez impressionnant, avec quelqu'un qui est aveugle et qui peut montrer à la caméra et à JPT tout ce qu'il voit autour de lui et avoir une description en temps réel. Donc, effectivement, je pense que GPT-4O, il y a cette vision en temps réel, qui peut interpréter aussi nos émotions sur le visage et un peu aussi les tons de la voix dans l'audio.
Monde Numérique :
[34:06] Alors Apple a annoncé récemment qu'ils allaient faire appel ils ont passé un accord avec OpenAI, je ne sais pas si tu étais dans la boucle pour ce deal là est-ce que c'est cette version là qui sera intégrée dans les prochains appareils Apple ?
Romain Huet :
[34:23] Oui effectivement pour ceux qui ont peut-être raté l'annonce Apple a récemment annoncé à la conférence WWDC qui est leur conférence annuelle pour les développeurs Apple Intelligence Legends. Donc, ils ont montré beaucoup de ce qu'ils veulent amener dans iOS 18, donc à la fois des expériences pour iOS, iPadOS et macOS. Et donc, ce qui est intéressant dans ces annonces, c'est que maintenant, ChatGPT va être intégré dans ces expériences. Et donc, ça va permettre notamment à Siri d'être capable d'accéder à ChatGPT quand l'utilisateur en a besoin. Donc, par exemple, s'il s'agit de demander une question qui a besoin de...
Romain Huet :
[35:02] L'information globale du monde ou bien quelque chose d'assez avancé comme planifier un voyage ou bien écrire une histoire, alors Siri pourra accéder à ChatGPT. Et un autre cas d'usage aussi qui, à mon avis, sera super impressionnant au quotidien, notamment pour la productivité, c'est de s'intégrer, dans ce cas, Apple a annoncé comme étant les Writing Tools. Donc, c'est être capable d'en fait générer du contenu dans n'importe quelle app, grâce à ChatGPT donc ce sera aussi la possibilité de pas seulement générer du texte mais aussi générer des images avec différents styles par exemple donc ça, ça sera intégré dans les writing tools, donc du clavier d'Apple donc ouais, hyper intéressant et je pense qu'encore une fois, ça va parfaitement dans le sens de la mission qui est de démocratiser ChatGPT, le donner au plus grand nombre et donc je pense que l'avoir dans, iOS, iPadOS et macOS va être assez fascinant en fin d'année pour tous les nouveaux utilisateurs qui vont pouvoir y accéder pour la première fois.
Monde Numérique :
[36:03] Oui, on a hâte de voir ça. Bon, même si apparemment, nous les Français, ce sera encore plus long, visiblement, d'après ce qu'Apple a laissé entendre. Mais bon, on va patienter sagement.
Monde Numérique :
[36:14] Et au-delà d'Apple, Romain, à quoi ça pourrait servir pour d'autres entreprises, d'autres applications, d'autres innovations ?
Romain Huet :
[36:24] Tu veux dire GPT-4O ?
Monde Numérique :
[36:26] GPT-4O, oui.
Romain Huet :
[36:27] Je pense qu'en fait, ce qui est intéressant, avec GPT-4O et encore une fois quand on réfléchit un peu à ces modalités d'audio en temps réel c'est que je pense qu'on est en train de réinventer la façon dont on construit du software en fait et des applications, quand on regarde un peu dans le rétroviseur quand on prend des applications comme Excel par exemple ça fait des décennies que Excel n'a pas beaucoup changé on l'utilise de la même façon mais quand on imagine maintenant avoir des applications.
Romain Huet :
[36:53] Avec lesquelles on a la possibilité de parler en temps réel ou la capacité de voir ce qui se passe sur un écran on est en train de complètement changer la façon dont on va créer des applications des produits, des services, l'interface en fait entre l'humain et la machine va être bien plus fluide qu'elle n'était, auparavant et on le voit en fait ça a été depuis l'invention de l'informatique et du premier ordinateur ça a été toujours la tendance, c'est à dire qu'au tout début un ordinateur c'était vraiment juste d'abord des cartes perforées puis des lignes de commande et puis ensuite l'interface est arrivée graphique et puis on a eu un clavier et puis une souris pour commencer à avoir quelque chose de plus naturel Mais là, on va arriver à l'étape d'après et encore après le... Les écrans tactiles, c'est carrément la possibilité de parler avec un ordinateur comme on parlait à un humain, être capable d'accomplir des tâches sans avoir à comprendre vraiment la technicité de comment l'app a été créée. Et aussi un software qui, je pense, va être beaucoup plus personnalisé. C'est-à-dire qu'en fait, maintenant qu'on a des modèles d'AI qui, via nos API, peuvent être intégrés dans n'importe quelle app, pourquoi est-ce que finalement, toi et moi, on utiliserait la même application qui a exactement les mêmes icônes placées de la même façon ? Peut-être qu'au quotidien on l'utilise différemment et donc comment est-ce qu'on réinvente un software qui est à la fois une meilleure communication humain.
Romain Huet :
[38:08] Logicielle mais qui aussi s'adapte au contexte, s'adapte au cas d'usage et donc je pense que c'est en tout cas moi ce qui me fascine c'est qu'on est sans doute à un nouveau shift de plateforme qui va réinventer la façon dont on crée des apps.
Monde Numérique :
[38:21] Donc tu penses que demain l'interface principale ça pourrait être l'intelligence artificielle au fond cette vision-là que vous avez chez OpenAI ?
Romain Huet :
[38:30] Oui, je pense qu'on le voit déjà un petit peu. Je pense que tu imagines que dans plein de produits, finalement, comme un chat GPT, que tu n'as pas besoin d'avoir de formation ou d'apprendre. Finalement, tu découvres au fur et à mesure la façon dont il marche.
Monde Numérique :
[38:43] Oui, dans Excel, on lui dit, je voudrais qu'à droite, le pourcentage de vente, je ne sais pas quoi.
Romain Huet :
[38:49] Oui, par exemple, aujourd'hui, plein de gens se sont formés sur Excel, par exemple, à apprendre des formules comme des VLOOKUP. Je pense qu'à terme, en fait, l'intérêt d'apprendre ce genre de choses va être nulle puisqu'au fond, on pourra avoir cette puissance, mais juste en interfaçant bien plus simplement avec le logiciel. Donc ouais, je trouve ça assez fascinant.
Monde Numérique :
[39:08] C'est fini les compétitions d'Excel alors, parce que ça existe, les compétitions d'Excel.
Romain Huet :
[39:14] Les gens jouent encore aux échecs, même si les IA sont devenus bien meilleurs aux échecs, donc il y a quand même cette passion qui est encore là. Et en termes de développement futur aussi, on parle de l'interface, mais je pense que ce qui est aussi intéressant et qu'on n'a pas encore mentionné dans la conversation, c'est qu'au-delà d'offrir nos services aux développeurs, on permet aussi aux entreprises de customiser nos modèles. C'est-à-dire qu'en fait, on fait du fine-tuning ou bien la possibilité de customiser des modèles. Et ce que ça veut dire dans ce cas-là, c'est que des startups peuvent prendre un modèle comme un GPT-4 et ensuite le customiser précisément pour un comportement donné pour leur tâche. Donc, on a par exemple cette startup qui s'appelle Harvey aux États-Unis qui
Romain Huet :
[39:54] est faite d'ailleurs pour les juristes. Ils ont avec nous complètement recréé un custom GPT-4 qui est optimisé réentraîné avec tous les cas juridiques aux Etats-Unis et ça leur permet d'avoir un produit qui est complètement basé sur ce modèle d'IA et bien plus performant que s'il était uniquement sur un GPT-4 classique donc c'est à la fois ces modèles d'IA mais aussi cette capacité qu'on a à travailler main dans la main avec des sociétés pour customiser encore plus et aller plus loin ces modèles.
Monde Numérique :
[40:26] Et du coup, c'est pour ça qu'il hallucine moins, on va dire, parce qu'il est plus dans un périmètre cerné.
Romain Huet :
[40:34] Exactement. Et donc déjà, je pense que pour que les auditeurs comprennent, les hallucinations, c'est ce dont on réfère quand, par exemple, les données ou la réponse sont incorrectes. Et en fait, ce qu'on s'est observé, c'est que comme les données, les probabilités sont statistiques dans tout ça, c'est normal qu'il y ait parfois quelques infos incorrectes. Plus ces modèles grandissent et plus des sociétés comme Harvey aussi font des modèles custom plus ces initialisations disparaissent et on a aussi en parallèle d'autres outils, dans l'industrie par exemple on parle beaucoup de RAG Retrieval Augmented Generation et ce que ça veut dire aussi c'est être capable de donner aux modèles, accès à des documents et à des sources externes, ce qui veut dire qu'il ne s'appuie pas seulement sur les données de son entraînement, il s'appuie aussi sur la récupération de données factuelles. Donc en gros, il y a plusieurs vecteurs qui font que les annonciations, on espère, disparaîtront. Et effectivement, c'est des modèles plus grands ou bien plus fine-tunés, plus customisés en fonction des use cases, et en parallèle, l'accès à ces outils comme le retrieval pour reprendre les données factuelles ou même le browsing sur Internet. Si par exemple on pose une question à ChatGPT sur quelque chose qui est arrivé ce matin évidemment cette information n'était pas dans son entraînement mais en allant la chercher sur internet il peut finalement y répondre.
Monde Numérique :
[41:51] Mais quand même à propos de ça le fait d'utiliser ChatGPT au sein d'un métier ou d'une entreprise etc alors tu sais qu'il y a un sujet qui est très sensible ici en France, c'est la question de la privacy la confidentialité des données et notamment, voilà si je suis une entreprise et que j'envoie mes données à ChatGPT via l'API ou via ChatGPT, quelle garantie j'ai que, véritablement, la confidentialité de mes données est préservée ?
Romain Huet :
[42:19] Il y a plusieurs vecteurs et c'est évidemment un point extrêmement important. La confidentialité des données chez OpenAI, c'est une priorité absolue. Bien entendu, ça va sans dire. On a des mesures de sécurité extrêmement strictes pour ça, pour protéger les informations des utilisateurs. Et en plus de la confidentialité, en fait, ce qu'il faut bien savoir, c'est que toutes les entreprises qui utilisent ChatGPT Enterprise ou bien tous les développeurs qui utilisent notre plateforme et notre API peuvent aussi avoir confiance que rien de ce qu'ils envoient, dans l'API ou dans ChatGPT Enterprise ne sera utilisé pour entraîner nos propres modèles. Donc, c'est aussi une garantie en plus de la sécurité. C'est aussi cette idée de confidentialité où, en gros, les données leur appartiennent. Oui.
Monde Numérique :
[42:56] Ok, c'est la réponse d'OpenAI. Encore quelques minutes, juste, Romain, parce que l'heure tourne.
Monde Numérique :
[43:04] Le futur, c'est quoi ? Alors, chat GPT-5, c'est quand ? Tu nous annonces sa sortie, là ?
Romain Huet :
[43:10] Non, ça va te décevoir, mais non. Je n'ai pas de date précise, mais c'est une question passionnante. Évidemment, chaque nouvelle version de nos modèles vise à améliorer les limitations des précédents. Donc, on n'a pas non plus annoncé comment ce prochain modèle s'appellera, ni quand il arrivera, mais on a commencé sa phase d'entraînement, comme on l'a annoncé.
Romain Huet :
[43:32] C'est encore trop tôt pour dire ce sur quoi il sera mieux, mais ce à quoi on peut s'attendre, en effet, c'est de se dire que entre GPT-3 et GPT-4, il y a eu un saut énorme en capacité de raisonnement et on pense qu'on pourrait avoir quelque chose encore de similaire avec les prochaines versions du modèle. Et ce qui est intéressant, c'est que finalement, ça généralise tellement bien que ça pourrait en fait être un modèle qui, à nouveau, s'améliorent sur tous les domaines. D'ailleurs, il y a beaucoup d'entrepreneurs et de fondateurs qui nous demandent comment est-ce qu'ils devraient aborder cette réflexion. Et en fait, il y a deux façons de voir les choses. Il y a la façon de voir les choses qui est de dire on a atteint un plateau, GPT-4 ne pourra plus vraiment s'améliorer ou alors de façon très marginale. L'autre façon de voir les choses, c'est de se dire non, les modèles vont s'améliorer de plus en plus. Si aujourd'hui, ils étaient capables de faire des tâches de juste quelques minutes, ça pourrait être bien plus encore à l'avenir. Et donc, on pense vraiment que c'est cette deuxième vision qui est la bonne c'est en tant que fondateur finalement essayer d'imaginer ce futur un petit peu vivre dans ce futur proche et de commencer à construire les produits en s'imaginant que les modèles vont s'améliorer sans perdre trop son temps finalement sur l'AuGPT4 peut-être à quelques limites c'est de commencer à vivre dans ce futur et en attendant ces nouveaux modèles.
Monde Numérique :
[44:45] Et l'étape d'après c'est la fameuse IAG l'intelligence artificielle générale à laquelle Sam Altman rêve en tout cas c'est ce qu'il a dit – Sous-titrage FR 2021.
Romain Huet :
[44:56] Oui, je pense que c'est évidemment la mission d'OpenAI, donc c'est évidemment ce qu'on essaye de construire. Je pense que c'est encore un peu sujet à débat dans le sens où je pense que plus on s'en rapprochera, plus il y aura de spéculation et plus ce sera peut-être compliqué de le définir très précisément. Mais en tout cas on est extrêmement content des progrès qu'on voit à chaque génération et c'est fou de se dire qu'en fait avec GPT-3, les usages étaient tellement simples on pouvait même pas vraiment en faire un business au fond c'était des tâches tellement basiques peut-être 2-3 secondes juste pour compléter, traduire un mot ou compléter un texte très simple et donc si GPT-4 c'est peut-être un jeune étudiant on verra si la prochaine version peut faire des tâches encore plus avancées.
Monde Numérique :
[45:44] Mais avec alors sans vouloir rouvrir une querelle d'experts alors que c'est la fin de l'interview, mais avec des réserves, par exemple, Yann Lequin le chercheur français, le patron de la recherche chez Meta, qui dit qu'avec les LLM classiques type Chachipiti, on n'atteindra pas l'intelligence artificielle générale parce que ce ne sera pas possible, de toute façon ça va plafonner vous, ce n'est pas votre vision.
Romain Huet :
[46:09] Je pense que je comprends son point d'ailleurs, et je pense qu'il a raison sur certaines choses, et on le voit d'ailleurs chez OpenAI, c'est que d'un côté, on continue d'investir énormément sur les LLM, et c'est pour ça qu'on a des modèles de pointe qui continuent d'avancer. Et en même temps, on sait aussi que chez OpenAI, notre principe c'est de prioriser les domaines qui sont utiles pour construire cette mission. Et on sait par exemple que le texte, c'est puissant, mais c'est pas toute l'histoire. Et donc c'est pour ça qu'on a développé ces compétences en vision, avec l'analyse d'images, l'analyse de documents. Mais c'est aussi pour ça, d'ailleurs, on n'a pas parlé de Sora, qui est notre modèle de texte à vidéo. On a poussé les limites avec Sora sur ce modèle de diffusion qui est capable de générer des vidéos d'une minute à partir d'un simple prompt. Et en fait, l'idée d'avoir des modèles comme Sora, ce n'est pas seulement de générer des vidéos qui sont d'ailleurs extrêmement impressionnantes et magnifiques, mais c'est aussi de penser que c'est un vecteur important vers CTGI parce que ça va nous permettre d'enseigner à l'IA en quelque sorte la compréhension du monde physique, la compréhension des mouvements. Et on le voit déjà être dégagé par Sora. Tout ça pour dire que même si on continue d'investir énormément sur l'LLM et qu'on pense qu'on est très loin d'avoir atteint les limites, comme on a cette mission de développer les GI, on s'investit aussi sur d'autres modalités, comme on l'a vu et notamment avec Sora pour comprendre le monde réel encore mieux.
Monde Numérique :
[47:32] Merci beaucoup, Romain Huet. C'était super de discuter avec toi et merci de m'avoir consacré ce temps. Je rappelle que tu es responsable de l'expérience développeur chez OpenAI et qu'on On était ensemble en discussion, toi à San Francisco et moi à Paris. Merci Romain.
Romain Huet :
[47:50] Un très grand merci Jérôme, très grand merci à toi et merci à tous pour votre écoute. À très bientôt.
Monde Numérique :
[47:54] Salut.