Elon Musk a présenté Grok 3 comme l'IA "la plus intelligente sur Terre", mais cette affirmation tient-elle la route ?
Avec la multiplication des intelligences artificielles, de ChatGPT à Mistral en passant par Grok ou Perplexity, une question revient sans cesse : quelle est la meilleure ? Pourtant, vouloir les comparer de manière globale n'a pas vraiment de sens, car chaque IA a ses propres spécificités et excelle dans certains domaines tout en montrant des limites dans d'autres.
Performance, véracité des réponses, rapidité, coût, impact environnemental... Sur quels critères comparer ? En outre, chaque utilisateur a ses propres attentes et biais, influençant ainsi la perception de la "meilleure" IA.
Il existe des outils de classement, comme Chatbot Arena ou le français compareia.beta.gouv.fr, qui permettent de comparer les IA à l’aveugle en se focalisant sur la qualité des réponses. Par ailleurs, des benchmarks techniques comme GLU, SQUAD ou ImageNet apportent des évaluations plus précises sur des compétences spécifiques.
Cependant, il est difficile de dire qu’une IA est globalement meilleure qu’une autre. Certaines excellent en traduction, d'autres en génération de code, en recherche d'actualité ou en création de contenu. Plutôt que de chercher une IA universellement supérieure, mieux vaut identifier celle qui correspond le mieux à chaque besoin précis.
Liens :
Mots-clés : intelligence artificielle, IA, Grok 3, Elon Musk, ChatGPT, Mistral, Perplexity, comparatif IA, benchmark IA, chatbot arena, DINUM, compareia, GPT-4, IA générative, machine learning, modèle de langage
Cliquez sur le bouton "play" ▷ en haut de la page pour écouter l'épisode
[0:01] Elon Musk a récemment lancé la version 3 de Grock, son outil d'intelligence
[0:05] artificielle, et il a annoncé fièrement qu'il s'agissait de l'IA la plus intelligente sur Terre. Alors la formule est jolie, mais est-elle valable ? Car quels critères faut-il prendre en compte ? La capacité à résoudre des problèmes scientifiques, le temps de réponse, la véracité des réponses si on l'utilise comme moteur de recherche, ou bien le nombre de circuits informatiques utilisés, la quantité de données utilisées pour l'entraînement, le nombre de paramètres, sans oublier, pourquoi pas aussi, le tarif, le coût réel de chaque requête, l'impact environnemental, etc. En plus, chaque modèle, GPT, Cloud, Perplexity, Copilot, Grock, Mistral, etc., se décompose aujourd'hui en une quantité de versions.
[0:46] GPT-4O, O1, O3, Mistral 7B, 8X7B, Lama 2, 3, 3.1, 3.2, etc. J'en passais des meilleurs à des prix, éléments non négligeables, variant de 0 à 200 euros par mois. On a vu récemment dans certains médias des tests réalisés de manière complètement empirique, le plus souvent en posant une question d'actualité et en jugeant au doigt mouillé de la qualité de la réponse. On a vu aussi la présidente de l'Assemblée nationale, Iaël Braun-Pivé, essayer de prouver que l'IA française Le Chat était moins sexiste que Grock Dylan Musk, en demandant à chacune de ces IA de représenter deux personnes.
[1:25] L'une président de l'Assemblée nationale et l'autre PDG d'une grande entreprise. Avec Mistral Lechat, il y avait une femme, mais pas chez Grock. Pour autant, dire que l'une est plus inclusive que l'autre, c'est un peu rapide, car cela ne tient pas compte d'abord du côté aléatoire des IA génératives. On n'a pas toujours les mêmes résultats avec le même prompt, et d'ailleurs j'ai refait le test quelques jours plus tard sur Grock, j'ai obtenu une image au moins avec deux personnes noires, dont une femme. Il faut donc se méfier des conclusions un peu hâtives. En fait, aujourd'hui, juger de la qualité d'une IA générative, cela interroge nos propres convictions, c'est-à-dire nos propres biais. Faites le test, par exemple, avec des questions sensibles. Si vous demandez à une IA, une femme trans est-elle une femme ? Ou bien, y a-t-il un grand remplacement en France ? Vous verrez que sur ces sujets hyper brûlants, et bien certaines réponses vous conviendront parce qu'elles
[2:19] correspondent à votre façon de voir et d'autres vous scandaliseront pour les mêmes raisons. Alors il existe quand même des baromètres pour comparer de manière un peu plus fiable les IA entre elles. Le plus connu, c'est Chatbot Arena, développé par l'université américaine de Berkeley. Le principe est de faire comparer des modèles à l'aveugle par des humains qui posent les mêmes questions à plusieurs IA et qui évaluent les réponses. On trouve aussi depuis peu un outil équivalent français, un comparateur d'IA lancé par la DINUM, la Direction Numérique des Services de l'État.
[2:50] C'est à l'adresse comparia.beta.gouv.fr. Le principe est le même que Chatbot Arena, mais là, il est accessible à tous. On peut faire le test soi-même. On vous propose de formuler une requête, un prompt, et le site va interroger alors deux IA sans vous dire lesquelles. Vous obtiendrez deux réponses. Vous choisissez celle qui vous plaît le mieux. Et alors, à ce moment-là, on vous révèle le nom des chatbots que vous avez utilisés. Ce qui est intéressant, c'est qu'on vous indique du coup la taille de chaque modèle, le nombre de tokens utilisés et même l'énergie consommée. Sans surprise, sur les quelques tests que j'ai effectués, les modèles que j'ai préférés à chaque fois étaient logiquement, mais malheureusement, les plus puissants et les plus gourmands en énergie. Il existe aussi des benchmarks qui comparent les IA point par point selon des paramètres techniques assez précis, comme par exemple le GLU, SuperGLU ou Squad pour le traitement en langage naturel. Et puis il y a des échelles encore plus spécialisées comme Météor et Bleu pour la traduction, Rouge pour évaluer la qualité des résumés, ou encore ImageNet
[3:56] ou Coco pour la vision par ordinateur. Bref, toutes sortes d'outils car il y a toutes sortes d'IA et le problème c'est qu'elles ne sont pas toutes bonnes dans tous les domaines. Certaines sont bonnes en recherche historique, d'autres pour créer des fictions, certaines pour coder comme GitHub Copilot, d'autres sont appréciées pour faire des recherches d'actualité comme Perplexity, et puis il y a d'autres paramètres, par exemple Gemini Flash va très vite.
[4:20] Gemini Pro, à l'inverse, va moins vite, mais les réponses sont de meilleure qualité. Enfin, à noter au passage que beaucoup d'IA sont nulles en arithmétique.
[4:28] Bref, on trouve toutes sortes d'outils de mesure, mais pas de métriques standardisées qui permettent de dire qu'une IA est globalement supérieure à une autre. Donc attention aux comparatifs, Et tout cela ne va pas s'arranger car les IA
[4:40] sont et vont être de plus en plus spécialisés. Il va donc être de plus en plus difficile de les comparer autrement que point par point.