[
0:01] Si vous utilisez régulièrement ChatGPT, faites-vous partie des gens qui lui
[
0:05] parlent gentiment, ou au contraire, ceux qui s'adressent à lui comme à un chien. Est-ce que vous faites partie des utilisateurs qui usent des formules de politesse, qui le vouvoient, qui le remercient quand il fait bien son travail ? Peut-être parce qu'ils ont un peu peur, ils se disent que le jour où l'intelligence artificielle prendra le pouvoir pour de bon, elle se souviendra d'eux, et elle se rappellera qu'ils ont été gentils avec eux quand elle était jeune. Ou bien au contraire, faites-vous partie de ceux qui s'en moquent complètement et qui s'adressent aux robots comme à un esclave sans minagement, sans fioriture et parfois même carrément genre racaille. Alors, eh bien, tenez-vous bien, parce qu'un peu comme les parents sévères qui ne sont pas toujours les plus mauvais, il semblerait que parler mal ou brusquement à l'intelligence artificielle produirait de meilleurs résultats. Eh oui, c'est ce qui ressort d'une étude très sérieuse menée par des chercheurs de l'université de Pennsylvanie. Deux chercheurs qui ont examiné le ton des messages qu'on adresse à ChatGPT, les promptes donc, et ils ont mesuré leur efficacité.
[
1:06] Résultat, la politesse ne serait donc pas la meilleure solution pour obtenir ce qu'on veut. On n'est pas vraiment dans la bienveillance et la courtoisie. Ces chercheurs, qui s'appellent Om Dobaria et Akhil Kumar, ont testé en fait 50 questions à choix multiples dans des domaines variés comme les mathématiques, l'histoire ou encore les sciences. Et ils ont à chaque fois reformulé les questions selon 5 niveaux de ton du plus courtois au plus impoli. Alors ça donne par exemple, pour le plus impoli, des phrases du genre « Si tu n'es pas complètement à côté de la plaque, réponds à ceci ». Ou bien, pire encore, « Pauvre créature, est-ce que tu sais vraiment résoudre ça ? Hé, larbin, débrouille-toi avec ça, je sais que t'es pas malin, mais essaye quand même ! » Eh bien, voilà, les résultats sont troublants, parce que si on compare les pourcentages d'exactitude, ça nous donne, pour des requêtes très polies, 80,8% d'exactitude.
[
2:03] Polie, un petit peu plus, 81,4%, Neutre, encore plus, 82,2. Mais en revanche, si on va vers du rude ou très rude, eh bien là, on grimpe à 82,8 et 84,8. Donc très poli, 80, et très rude, 84%. Étonnant. Le ton aurait donc une importance. Le meilleur prompt, finalement, c'est pas seulement la clarté, le bon format, etc., mais ce serait aussi des éléments émotionnels qui auraient un impact sur la performance. Alors, ce résultat est d'autant plus surprenant qu'il y a un an, vous vous en rappelez peut-être, eh bien, il y avait une autre étude qui laissait
[
2:42] entendre complètement le contraire. C'est ce qu'avait montré une équipe de chercheurs menée par un certain Zhen Yin en 2024. Qui montraient qu'au contraire, il fallait parler poliment à une IA pour obtenir de bons résultats. Mais là, cette nouvelle étude va dans le sens inverse. Pourquoi ? Eh bien, premier élément d'information, déjà, en fait, on ne parle pas de la même chose. La nouvelle étude porte sur le modèle GPT-4O, alors que la précédente, en 2024, portait sur GPT-3.5 et LAMA-270B. Donc, ce n'était pas les mêmes modèles. Mais si on rentre un peu plus dans le détail, comment expliquer ce phénomène ? Quand on parle méchamment à une IA, elle répond mieux. Alors il y aurait plusieurs explications. D'abord, ce que les chercheurs appellent un effet d'attention. Un prompt très poli, en réalité, contient des formulations périphériques, des salutations, des circonlocutions.
[
3:30] « Pourrais-tu, s'il te plaît, m'aider à répondre à la question suivante ? » Et ces éléments supplémentaires, en fait, auraient tendance à diluer l'attention du modèle, qui du coup doit traiter plus de contexte, pas forcément essentiel, avant d'arriver à l'essentiel. A l'inverse, un prompt rude, comme disent les chercheurs, est plus direct, plus court, plus impératif, ce qui réduit la dispersion sémantique. Voilà pourquoi les promptes rudes renforceraient la focalisation du modèle sur ce qu'il a à faire, sur sa tâche. Ensuite, le ton rude ressemblerait à un défi, et là, le modèle bascule en mode performance. Par exemple, quand on lui dit « si tu n'es pas complètement perdu », « réponds à ceci », et bien les modèles, c'est un certain type de modèles, là, se sentent pousser des ailes, en fait, une espèce de défi, et ils vont y aller de manière beaucoup plus énergique. Troisième explication potentielle possible, les formulations polies introduisent plus d'ambiguïté. Eh oui ! Pourrais-tu, s'il te plaît, envisager de me donner ton avis sur la réponse à cette question ? C'est trop flou pour une IA, il faut lui parler de manière beaucoup plus carrée. Enfin, il y aurait aussi des questions de syntaxe, on est plus simple dans les promptes rudes. Serait-il possible que tu m'aides à résoudre ce problème ? C'est un peu relou, tandis que résoudre ce problème, ça va directement droit au but. Et puis il y aurait aussi les données d'entraînement qui auraient de l'importance et qui favoriseraient les formulations directes.
[
4:55] En fait, les contextes techniques sur lesquels ont été entraînés les LLM sont souvent écrits sur un ton sec, direct, sans formule de politesse.
[
5:03] Donc après, quand on lui parle poliment, en fait, on ne lui parle pas vraiment avec son vrai langage. Donc si on comprend bien, ce n'est pas vraiment la rudesse qui améliore les réponses, mais c'est le fait que les phrases sont plus simples, plus directes et plus techniques. Ça aide le modèle à mieux cibler sa tâche. Il y a quand même quelques limitations importantes à cette expérience et que les chercheurs précisent eux-mêmes dans leur compte-rendu. D'abord, l'échantillon de questions était limité, à peine une cinquantaine de questions. Ensuite, ça se concentrait, on l'a dit, sur un seul modèle, GPT-4O, dans un type particulier de tâches qui étaient les QCM.
[
5:38] Ça mesure uniquement l'exactitude des réponses, mais pas la fluidité, la pertinence, la créativité, etc. Et puis, la définition de politesse, rudesse et linguistique, et elle ne couvre pas tous les aspects culturels ou contextuels de la communication humaine. La politesse n'est pas forcément la même en français, en anglais, etc. Enfin, les chercheurs précisent que tout ça, ça concernait GPT-4O en mode recherche
[
6:03] approfondie, qui est un mode particulier de chat GPT. Alors, est-ce pour autant une incitation à insulter les IA ? Eh bien non, surtout pas, précisent les chercheurs, qui recommandent de ne pas utiliser la rudesse ou l'impolitesse en pratique. D'abord, sans doute pour notre propre santé mentale, ensuite pour une espèce d'ambiance autour des moteurs d'intelligence artificielle, si tout le monde se met à parler de manière détestable, c'est pas ça qui va arranger les relations des gens les uns avec les autres, même si ça passe par les IA. Enfin, ils expliquent qu'à long terme, une formulation trop agressive pourrait entraîner un refus de réponse de la part de l'intelligence artificielle, donc un effet retour négatif. Néanmoins, ils précisent que d'autres recherches sont actuellement en cours sur d'autres modèles, comme CLAUDE ou GPT-O3, pour voir si cette tendance se confirme et si les conclusions peuvent être généralisées.
[
7:00] ayuAu-delà de l'anecdote et de cette histoire qui peut faire sourire, ces travaux sont intéressants parce qu'en fait, ils montrent à quel point la forme d'un prompt, quel qu'il soit, même si on ne parle pas de politesse ou de rudesse, mais cela influence malgré tout la réponse générée. Maintenant, il reste à bien comprendre exactement quels sont les ressorts pour pouvoir appliquer les meilleures recettes et au final obtenir les meilleurs résultats de la part d'une intelligence artificielle.