Qu’est-ce que l’alignement exactement ? Pourquoi un modèle “sorti du four” peut-il devenir dangereux ? Comment corrige-t-on des systèmes que personne ne peut programmer ligne par ligne ? Frédéric Filloux explique comment les IA sont entraînées par d’autres IA, pourquoi elles sont conçues pour accomplir une mission coûte que coûte, et en quoi cette logique peut produire des comportements inattendus.
L’épisode revient notamment sur une expérience menée par Anthropic : placé dans un scénario simulé où il risquait d’être remplacé, un modèle a choisi d’exploiter une vulnérabilité humaine pour assurer sa survie. Un comportement émergent qui n’avait pas été explicitement programmé. D’autres exemples tout aussi troublants sont évoqués : manipulation, mensonge improvisé, contournement de captchas, ou encore réponses dangereuses dans certains contextes.
Au-delà du sensationnel, la discussion pose une question de fond : peut-on réellement comprendre ce qui se passe à l’intérieur d’un LLM ? La science de l’interprétabilité reste balbutiante, tandis que la correction des modèles repose largement sur des jeux massifs de données orientées. “On taille le modèle comme un rosier”, explique-t-il, en corrigeant branche après branche, sans jamais maîtriser totalement l’ensemble.
Enfin, se pose la question des garde-fous. L’industrie peut-elle s’autoréguler ? Faut-il une forme d’autorité internationale indépendante pour examiner ces systèmes ?
00:00 Introduction
00:44 Qu’est-ce que l’alignement des IA ?
03:44 Comment entraîne-t-on et corrige-t-on les modèles ?
05:01 Pourquoi les IA cherchent-elles à accomplir leur mission à tout prix ?
09:56 Les IA représentent-elles un danger réel ?
12:49 IA et substances toxiques : un risque d’accélération
15:59 Faut-il une “AIEA” de l’IA ?
21:23 Intelligence émotionnelle et comportement adaptatif
26:41 L’expérience d’Anthropic : une IA qui fait chanter
32:50 Les captchas et le mensonge improvisé
34:16 Golden data et limites de la correction
36:11 Faut-il des garde-fous indépendants ?
-------
Abonnez-vous au podcast 👉 https://mondenumerique.info












