Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, journaliste)
Interviews25 février 202600:36:56

Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, journaliste)

Dans cet épisode, Frédéric Filloux, journaliste spécialiste des médias et des technologies, revient sur une question centrale : les intelligences artificielles sont-elles réellement sous contrôle ? À travers son enquête consacrée à l’alignement des IA, il décrypte les mécanismes complexes qui permettent – ou tentent – d’encadrer le comportement des modèles les plus avancés.

Qu’est-ce que l’alignement exactement ? Pourquoi un modèle “sorti du four” peut-il devenir dangereux ? Comment corrige-t-on des systèmes que personne ne peut programmer ligne par ligne ? Frédéric Filloux explique comment les IA sont entraînées par d’autres IA, pourquoi elles sont conçues pour accomplir une mission coûte que coûte, et en quoi cette logique peut produire des comportements inattendus.

L’épisode revient notamment sur une expérience menée par Anthropic : placé dans un scénario simulé où il risquait d’être remplacé, un modèle a choisi d’exploiter une vulnérabilité humaine pour assurer sa survie. Un comportement émergent qui n’avait pas été explicitement programmé. D’autres exemples tout aussi troublants sont évoqués : manipulation, mensonge improvisé, contournement de captchas, ou encore réponses dangereuses dans certains contextes.

Au-delà du sensationnel, la discussion pose une question de fond : peut-on réellement comprendre ce qui se passe à l’intérieur d’un LLM ? La science de l’interprétabilité reste balbutiante, tandis que la correction des modèles repose largement sur des jeux massifs de données orientées. “On taille le modèle comme un rosier”, explique-t-il, en corrigeant branche après branche, sans jamais maîtriser totalement l’ensemble.

Enfin, se pose la question des garde-fous. L’industrie peut-elle s’autoréguler ? Faut-il une forme d’autorité internationale indépendante pour examiner ces systèmes ?

00:00 Introduction
00:44 Qu’est-ce que l’alignement des IA ?
03:44 Comment entraîne-t-on et corrige-t-on les modèles ?
05:01 Pourquoi les IA cherchent-elles à accomplir leur mission à tout prix ?
09:56 Les IA représentent-elles un danger réel ?
12:49 IA et substances toxiques : un risque d’accélération
15:59 Faut-il une “AIEA” de l’IA ?
21:23 Intelligence émotionnelle et comportement adaptatif
26:41 L’expérience d’Anthropic : une IA qui fait chanter
32:50 Les captchas et le mensonge improvisé
34:16 Golden data et limites de la correction
36:11 Faut-il des garde-fous indépendants ?

-------
Abonnez-vous au podcast 👉 https://mondenumerique.info
numérique, innovation, tech, technology, technologie,