Roberto Di Cosmo:
[
0:01] Aujourd'hui, l'ensemble de tout ce qu'on a déjà archivé, donc des codes qui viennent de plus de 5000 plateformes sur la planète, qui étaient depuis le début des années 60 et compagnie, s'attirant en quelques pétaoctets.
Roberto Di Cosmo:
[
0:17] Alors, pétaoctets, c'est beaucoup.
Monde Numérique :
[
0:19] C'est 1000 pétaoctets. C'est beaucoup, mais ce n'est pas tant que ça.
Roberto Di Cosmo:
[
0:21] Ce n'est pas grand-chose. Non, je veux dire, juste les vidéos des chats qui sont applaudées tous les jours, je pense que ça fait plus que ça.
Monde Numérique :
[
0:35] Bonjour Roberto Di Cosmo.
Roberto Di Cosmo:
[
0:37] Bonjour Jérôme.
Monde Numérique :
[
0:39] Chercheur en informatique et fondateur de Software Heritage. Software Heritage qui est une organisation qui s'est fixée pour but d'archiver les logiciels du monde entier. Ça paraît incroyable comme mission, racontez-nous ça, en quoi ça consiste exactement ?
Roberto Di Cosmo:
[
0:56] L'idée, c'est pas difficile, en particulier dans le temps de mission. On voit bien que l'informatique et les numériques sont essentiellement les fondements de toute notre société moderne. On a tendance à oublier que derrière les numériques, il y a des logiciels, et derrière les logiciels, il y a des codes sources qui, normalement, sont écrits par des zoomants. Plus récemment, par des zoomants, avec l'aide des intelligences artificielles, mais sans y revenir. Et que si on n'a pas ces codes sources-là, en réalité, on a perdu le contrôle de tout ce qu'on est en train de faire dans notre phase autour informatique. Alors, nous, je veux dire, moi et les autres collègues avec qui on travaillait il y a plus de dix ans, on n'avait pas du tout vocation à se lancer dans une aventure, de construire en sorte des bibliothèques d'Alexandrie, de tous les codes de la planète. Donc l'idée, on faisait autre chose, on faisait des analyses des codes, on démontrait les théorèmes, on vérifiait s'il y avait des systèmes logiques pour améliorer la qualité des logiciels, tout ça. Mais à un moment donné, l'idée un peu folle était venu, et si on pouvait profiter du fait qu'on a plein de logiciels libres sur la planète, plan des consources disponibles pour essayer d'aller vérifier la qualité de tous ces codes. Et donc, on a donné la question où est-ce qu'ils sont tous ces codes. Et on a commencé à regarder autour et effectivement, ils étaient éparpillés de partout sur des plateformes diverses et variées qui étaient utilisées par des gens pour collaborer ou alors pour distribuer des codes. Ces plateformes étaient un peu éphémères. On pensait à l'origine de l'informatique et de l'informatique numérique.
Roberto Di Cosmo:
[
2:21] Inoxydable, et alors ça s'oxyde très vite quand on a perdu une clé USB On a perdu 60 gigas, on a perdu 64 gigas de données, donc ce n'est pas sympa. Et on avait vu commencer à disparaître des codes importants. Et donc c'est assez long. On a dit, attends, avant d'aller faire l'analyse des codes, on va peut-être essayer de voir s'il ne faut pas faire quelque chose pour sauver ces codes sources. Et on était très étonnés que personne ne se le coupait. C'est-à-dire, pour les web, il y a l'internet à caille depuis le milieu des années 90 qui essaye de sauver les web. Pour les images, pour les vidéos, on a plein d'institutions qui se le coupent, même pour les jeux vidéo. Alors que les codes sources, qui sont quand même la recette des fabrications, des montrements numériques, il n'y avait personne. Et c'est là qu'est née cette idée de dire, bon, c'est un problème, oui. Est-ce qu'on peut faire quelque chose ? Oui. Est-ce qu'on sait comment le faire ? On pense que oui. Est-ce qu'on est légitime ? On va voir. Est-ce qu'on a les moyens de le faire ? On va demander. Et donc là, on a commencé l'aventure.
Monde Numérique :
[
3:19] Mais alors, attends, parce que tu dis, on n'a rien pour stocker, mais il y a quand même des choses. Il y a GitHub, par exemple, où tout le monde publie aujourd'hui, enfin, tous les développeurs publient leurs codes. Donc, est-ce que ça, ce n'est pas déjà une sorte de bibliothèque.
Roberto Di Cosmo:
[
3:33] Oui, oui, mais effectivement, là, c'était le moment où on a un peu réalisé qu'on confond plusieurs choses. Donc, il y a des plateformes de développement. GitLab est la plus connue aujourd'hui, mais il y en a plein d'autres. Donc, il y a GitLab et des dizaines de milliers d'instances de GitLab. À l'époque où on travaillait sur ça c'était plutôt SourceForge qui était l'ancienne plateforme phare à l'époque on pensait qu'il y avait des centaines de milliers de projets, c'était énorme maintenant sous Gita on a des centaines de millions, mais ce sont des plateformes de collaboration, donc moi je peux aller là, je peux créer un projet, je peux travailler avec quelqu'un d'autre, après je décide que je m'en vais, j'annule mon projet je le fasse, je le modifie donc c'est pas du tout un archive et après d'aller passer en 2015 en particulier et juste après qu'on avait commencé notre travail, il y avait des grandes plateformes à l'époque qui étaient beaucoup plus populaires des Gitabs, comme Google Code ou Gitterius, qui ont fermé. Et donc, en fermant, ils ont supprimé des centaines de millions. En réalité, si je fais le calcul, on a sauvé plus d'un million trois cent mille projets qui ont été supprimés comme ça en claquant les doigts parce qu'on a déconnecté les serveurs, pour une raison ou pour une autre, des raisons de business. Et donc, ça, c'est merci d'avoir posé la question. Parce que souvent, beaucoup de développeurs, beaucoup de nos collègues même dans le monde.
Roberto Di Cosmo:
[
4:54] Informatique, ils pensent que mettre un projet sur GitHub ou mettre un projet sur GitHub, etc., c'est lui garantir une vie infinie. Alors que pas du tout.
Roberto Di Cosmo:
[
5:05] Voilà. Et donc, c'est là qu'il y avait le besoin d'un archive. L'archive, la promesse d'un archive, c'est que tu mets dedans, va rester dedans. Alors que dans nos plateformes de développement, il n'y a aucune promesse de
Roberto Di Cosmo:
[
5:15] maintenir, de déterminer ce qui est en mettant dedans.
Monde Numérique :
[
5:18] Oui, mais Roberto, c'est quel type de logiciel ? Parce que des logiciels, comme tu dis, il y en a des millions, voire des milliards peut-être, ils évoluent tout le temps, on en crée tout le temps des nouveaux, on crée des nouvelles versions, etc., etc..
Roberto Di Cosmo:
[
5:33] Exactement. Effectivement, quand on s'est posé la question, c'était l'été 2014, qu'est-ce qu'on fait ? On a pris une approche un peu scientifique. On a regardé ce qui était disponible, ce qui n'était pas disponible, quelles étaient les façons utilisées par développeurs pour travailler ensemble. Parce qu'effectivement, comme tu dis, il y a plein de logiciels, mais c'est pire. Déjà depuis le milieu des années 2010, on a commencé à travailler avec des plateformes de collaboration comme GitLab, GitLab, etc., dans lesquels, pour apporter la moindre modification sur un logiciel, je vais échanger une virgule dans un des dizaines de milliers de fichiers sources d'un logiciel.
Roberto Di Cosmo:
[
6:11] Je suis obligé, on me conseille, on fait une copie. D'abord, je fais une copie de tous les logiciels, après, je modifie la virgule, et après, je demande au propriétaire de la version originaire de venir chercher ma modification. C'est ce qu'on appelle les pull requests. D'abord, je fais une copie, et après, je vais demander aux gens de faire une copie. Résultat, non seulement il y a des millions de logiciels, mais il y a des millions de copies de logiciels déjà irristants dont les gens ont fait des copies juste parce qu'ils ont besoin de modifier en virgule ou plus qu'en virgule. Du coup, la problématique est de dire, mais combien d'espace ça va occuper tout ça ? Est-ce qu'on arriverait à survivre, à tenir un peu la montée impuissante de tous ces objets, etc. était un sujet majeur. Et quel logiciel mérite d'être archivé ? Est-ce qu'on doit tout archiver ou est-ce qu'on archive seulement quelques-uns ? Et donc, on a donné des réponses très simples. Numéro un, on archive vraiment tout, tout, tout, y compris logiciels pourris qui ne valent rien. Pourquoi ?
Monde Numérique :
[
7:08] Ah oui.
Roberto Di Cosmo:
[
7:09] Pourquoi vous allez archiver des choses qui ne servent à rien ? Parce que dans les moments du logiciel, les choses évoluent. Le logiciel vit. Le logiciel évolue avec le temps. Donc, au début, si on regarde un temps T, c'est un peu difficile de juger que quelque chose est totalement non intéressant. J'ai un exemple un peu mythique je n'ai pas trop, En 1995, je me rappelle que j'étais encore à une, je vois passer un message sous les messageries de l'époque, on n'avait pas forcément tous les web ni les réseaux sociaux, et il y a un monsieur qui s'appelle Rasmus Lerdorf qui était sur Internet comme ça, il disait que je suis un peu fatigué de refaire tous les pages web à la main, donc j'ai réalisé une petite série de micro-logiciels sans plus vite fait que je fais chez moi, je vous donne à la disposition, vous pouvez faire ce que vous voulez, je les ai appelés Personal Home Page Tools P-H-P P, qui, à l'époque, si on devait juste dire est-ce que j'ai l'archive ou pas, on disait mais pas du tout, c'est un truc qui est passé comme ça qui n'a pas beaucoup d'intérêt. Et alors PHP, maintenant ça ne s'appelle plus « Personal Homepage » plus ou tout. Donc HP, c'est « Hyperprocessor », les premiers pages, je ne m'en rappelle plus. Mais ça a fait fonctionner une grande quantité de citoyens de la planète. Donc toi, si on avait décidé de ne pas l'archiver.
Monde Numérique :
[
8:32] Oui, c'est devenu un langage vraiment omniprésent.
Roberto Di Cosmo:
[
8:38] Et donc, c'est pour ça que la décision n'a été prise de dire, on archive tout. Et le jugement sur la qualité ou l'intérêt, ça sera plus tard. Les gens vont venir voir s'il y a des choses intéressantes, ils vont les trouver. S'il y a des choses pas intéressantes, c'est pas grave, on va les laisser se démenter. Mais ça amène à la deuxième question.
Roberto Di Cosmo:
[
8:55] Combien ça coûte d'archiver tout ça ? Parce que, tous les fois qu'on discutait par exemple avec des collègues qui étaient dans les bibliothèques ou dans les archives, etc., la première question qu'il nous posait, c'était comment vous faites la couration. Qu'est-ce que je voulais dire ? Comment vous décidez ce qui mérite d'être archivé ? Si tout est pointe à la Bibliothèque nationale des frances avec une pile de post-it en disant j'écris ça, à un moment donné c'était intéressant, est-ce que vous pouvez les mettre à la bibliothèque ? Je pense qu'ils étaient raccompagnés à la porte des sorties assez rapidement, alors que nous on ne fait pas ça. Mais pourquoi on arrive à stocker tout ça ? Parce que justement dans les mondes du logiciel, il y a pas mal de copies des gens qui répliquent, qui embarquent des bouts qui sont déjà faits par des autres, etc. Donc finalement, il y a beaucoup, beaucoup de potentiel pour dédupliquer et comprimer ces autres jets-là, donc pour te la faire court, aujourd'hui, l'ensemble de tout ce qu'on a déjà archivé, donc des codes qui viennent de plus de 5000 plateformes sur la planète, qui est depuis le début des années 60 et compagnie, s'attirant en quelques péta-octets. Alors, un pet octet, c'est beaucoup.
Monde Numérique :
[
10:07] C'est beaucoup, mais ce n'est pas tant que ça.
Roberto Di Cosmo:
[
10:10] Ce n'est pas grand-chose. Je veux dire, juste les vidéos des chats qui sont applaudées tous les jours, je pense que ça fait plus que ça. Donc, ce n'est pas très grave. Et c'est grâce au fait qu'on a choisi à ce moment-là, justement, la bonne structure des données qui permettait d'identifier les objets qui sont dupliqués et donc de stocker les objets une seule fois, les codes une seule fois. Et c'est rappelé d'où ça vient. Donc, même si quelqu'un a fait 10 000 copies du code source, du noyau Linux qui fait des quantités énormes de fichiers, nous, en réalité, on n'a stocké qu'une seule avec les quelques modifications. Et donc, ce n'est pas rocket science, ce n'est pas révolutionnaire. Mais heureusement qu'on a commencé en 2014. Si on avait commencé 10 ans avant, peut-être qu'on aurait fait la grosse bêtise de stocker chaque logiciel à séparer. Là on serait tous morts dépassés par la quantité des copies etc mais.
Monde Numérique :
[
11:03] Là finalement on l'a fait donc vous avez trouvé un truc pour que ça prenne pas trop de place en fait exactement et ça a été un choix incroyable ouais,
Monde Numérique :
[
11:13] Mais physiquement, c'est stocké où quand même ?
Roberto Di Cosmo:
[
11:16] Physiquement, c'est stocké au moment où tu essaies de te lancer dans une aventure pour archiver les codes sources de la planète sur une longue durée. Si j'utilise une solution technologique que je ne maîtrise pas, disons que je ne suis pas trop crédible. Donc, ce qu'on a fait, on a décidé d'abord de mettre en place notre propre infrastructure. On enseignait vraiment nos propres matériels avec les racks, les machines, les serveurs, l'appui logiciel et tout le reste pour les nœuds centrales, qui, à ce moment-là, est archivé entre eux, au sein de la machine Iria, au sein de la machine du COA et on a planifié cette année de tout consolider à côté d'un vrai centre de calcul national important, à l'ESINES, à Montpellier, et donc, au bout de 10 ans, il fallait quand même le faire, mais évidemment.
Roberto Di Cosmo:
[
12:07] Il faut faire gaffe à ne pas perdre tout ce qu'on a trouvé. Donc, si on dit qu'on est les meilleurs du monde, il ne faut pas s'inquiéter, il n'y aura jamais d'accident, ça serait présomptueux. Moi, je préfère, toi, prendre en compte les risques des faillites. Et donc, on a fait des copies à plein d'endroits. Donc, d'abord, on a une copie sur AWS, donc ça, c'est bien du cloud. On a une copie sur Azure, aussi du cloud, mais ça, c'est des copies. Donc, si on devenait tous fous dans l'équipe, maintenant, on pourrait se réveiller demain, maintenant, aller effacer tout ça, ce qui n'est pas très bien. Et donc, on a mis en place aussi un système des miroirs. Le miroir, c'est un peu plus qu'une copie. C'est une copie intégrale qui est maintenue par quelqu'un d'autre que nous, par d'autres entités. Donc, il y en a une en Italie depuis 2023, une en Grèce, qui était ouverte récemment, une autre qui est en cours de finalisation en Allemagne, et une quatrième pour laquelle on a signé un accord à l'UNESCO il y a quelques semaines. Donc, quand on essaie vraiment de se protéger, en disant qu'on est les meilleurs du monde, on essaie de dire, on ne sait jamais. donc on va mettre des copies un peu partout et ce qui d'ailleurs fournit une infrastructure de résilience pour l'Europe sur laquelle on va aller venir.
Monde Numérique :
[
13:17] Oui. Puisqu'on est dans l'aspect sauvegarde proprement dit, aujourd'hui, j'imagine que c'est la sauvegarde classique sur disques durs, mais vous devez avoir un œil sur les technologies futures de sauvegarde. On parle de plein de choses intéressantes, sauvegarde sur ADN. Récemment, il y a des annonces qui ont été faites pour des processus de sauvegarde sur du verre, sur des plaques de verre.
Roberto Di Cosmo:
[
13:41] Etc.
Monde Numérique :
[
13:43] C'est quoi les débouchés qui sont envisageables ?
Roberto Di Cosmo:
[
13:47] Alors, effectivement, il y a plusieurs niveaux d'archivage qui sont nécessaires. Donc, l'archivage sur des structures en style ADN, sur les verres, ça c'est un techno qui avait été développé chez Microsoft déjà il y a quelques années, mais qui est sorti maintenant.
Roberto Di Cosmo:
[
14:01] Ce sont des choses qui sont intéressantes pour les disasters recovery. Imagine-toi, on est en train de les donner un papier en fumée, donc tu veux pouvoir repartir à partir des réseaux ou garder les choses sous le long temps. Sur la partie archivage à long terme, on collabore avec un projet national qui s'appelle Molecular Archive, qui travaille effectivement sur l'encodage de l'ADN des informations. Les cas intéressants sont justement que comme les brans d'ADN, en réalité ce n'est pas seulement l'ADN qu'ils utilisent, c'est d'autres suites de polymères qui peuvent avoir une capacité de stockage un peu plus élevée. Et donc comme l'ADN arrive à mettre quelques kiloclits par branle, à travers le comparé, etc. Ça colle plutôt bien avec des codes sources. La moitié de ce qu'on a dans notre archive, ce sont des fichiers plus courts des 3 kilooctets. Donc, ça colle relativement bien pour faire ces choses-là. Mais là, on est en train de parler des technologies qui vont devenir intéressantes dans quelques années. Parce que je vous dis, c'est très, très cher d'encoder dans l'ADN. C'est un code de 2 pétoté, il faut vider les caisses de l'étain. Ce n'est pas une bonne idée. mais d'ici à quelques années, la promesse de ces projets c'est de diviser par 1000 ou 10 000 ou 100 000 les coûts nécessaires pour archiver et même,
Roberto Di Cosmo:
[
15:19] densifier, rendre beaucoup plus facile la densité de ça.
Monde Numérique :
[
15:23] Est-ce que sur ce que vous avez accumulé depuis 10 ans, il y a des choses qui aujourd'hui ont trouvé leur intérêt ? Est-ce que vous vous êtes dit tiens, ben ça voilà, est-ce que ça a servi à quelque chose ?
Roberto Di Cosmo:
[
15:38] Ah oui, oui. Là, c'est la particularité du logiciel qui est assez intéressante. Des fois, les bons logiciels, c'est comme les bons vents. Ce n'est pas parce qu'il est vieux qu'il n'est pas bon. Donc, il y a des logiciels anciens qui restent là depuis longtemps. Ils sont utilisés partout. Par exemple, la base de l'Internet, les gestionnaires, les domaines, les compagnies, tout l'historique est important. Il y a des standards qui sont essentiels. Après, il y a différentes formes d'utilité. C'est-à-dire que c'est des choses qui sont vraiment importantes à connaître, reconnaître maintenant. Oui, on peut y passer du temps, on peut te donner plein d'exemples, mais je voulais me focaliser sur un truc qui touche peut-être un peu plus, un public un peu plus large. À l'occasion des symposions pour les dix ans qu'on a fait à l'UNESCO fin du mois de janvier, on a aussi mis en place une exposition des codes sources, Ça, c'est piloté en particulier par une fille incroyable, Mathilde Fichén, en train de faire une thèse au CNAM sur l'histoire des prologues, ce type de choses-là. Il y a eu l'idée de ramoter un gros groupe de personnes motivées par la planète pour faire un appel à signaler-nous les codes sources qui ont une vraie valeur.
Roberto Di Cosmo:
[
16:49] Émotive, historique, etc. Et donc là, par exemple, dans ces panneaux, par ailleurs, ça c'est intéressant. Ici à la ville d'Etat Paris, l'exposition est ouverte jusqu'à la fin du mois de mars je pense, donc tu pourrais aller voir et là dedans, toi les codes d'Eliza qui étaient les premiers psychologues dans les années 80, moi j'ai joué avec ces trucs là, c'était impressionnant c'était une sorte de, des psychologues qui réformulaient ce que tu lui disais, c'est un logiciel qui réformulait ce que tu lui disais et les gens avaient vraiment l'impression qu'ils parlaient avec un psychologue c'était impressionnant c'était un.
Monde Numérique :
[
17:21] GPT avant l'heure.
Roberto Di Cosmo:
[
17:23] Oui, oui, mais ça a été basé sur notre capacité de projeter l'intelligence sur la machine, l'intelligence qu'on n'a pas forcément, et ça continue. Il y avait les codes de l'algorithme des cryptographies asymétriques, l'RSA, qui est le fondement de la sécurité sur Internet aujourd'hui, et qui avait été considéré une arme militaire à l'époque. Il y a plein d'autres choses. Et donc là, ce qui est intéressant, ce n'est pas seulement les codes sources, mais c'est l'histoire des personnes, des équipes derrière, et l'histoire de l'impact que ces logiciels après a eu sur la société. Et donc, oui, on trouve des choses super intéressantes dans l'archive.
Monde Numérique :
[
18:00] Et est-ce que ça va se poursuivre ? Parce qu'aujourd'hui, est-ce qu'on ne va pas vers un système avec la programmation par intelligence artificielle, le vibe coding, etc. Est-ce qu'on ne va pas vers de plus en plus du code jetable qu'on va produire comme ça et puis qu'on remplacera très vite ? Qu'est-ce que tu en penses ?
Roberto Di Cosmo:
[
18:20] C'est une très bonne question. Alors, moi, je n'ai pas des boules de cristal. Je suis quand même ces objets depuis un certain moment, parce que c'est assez fascinant de voir la capacité et la vitesse avec laquelle ces modèles évoluent. Mais bon, il y a deux niveaux d'observation. L'observation un peu des vieux garçons, qui veut dire, moi, j'ai assez vécu, j'ai 62 ans aujourd'hui, donc j'ai vu, j'ai crois, 5 moments, dans l'histoire de l'informatique dans lesquelles on nous annonçait la mort de la programmation. Donc, il n'y aura plus de programmeurs. Chaque fois qu'on nous annonçait la mort de la programmation, dix années après, on avait doublé, triplé, quadruplé le nombre des gens qui faisaient le programme. Parce qu'étagrime, on a fait un boomerang. Ça porte un homme, ces doigts-là, qui dit que quand ça devient plus facile de faire quelque chose, ce n'est pas qu'on en fait moins, on en fait plus.
Roberto Di Cosmo:
[
19:12] Donc là, on écrit de plus en plus de codes. est-ce que c'est du code vraiment jetable ça c'est un sujet intéressant, au début de l'explosion du logiciel libre, de l'open source au début des années 2000, les gens trouvaient génial de pouvoir copier-coller les codes des autres alors c'était un peu générer du code à la volée parce que tu prends les codes que tu trouves de quelqu'un de part, tu les mets chez toi, au tout début c'est une bonne idée parce que tu gagnes le temps, tu ne dois pas écrire ton code, tu as juste des codes qui marchaient ailleurs. Au bout d'un moment, c'est devenu très cher à maintenir. Donc, les gens ont décidé de découvrir que les codes qui étaient développés à côté, ils avaient été corrigés et évolués. Par contre, toi, tu avais une copie chez toi de codes qui n'étaient pas du tout mis à jour, pas du tout alignés. Et donc, au bout d'un moment, tout le monde s'est mis d'accord sur le fait que ce n'était pas une bonne idée de faire du copier-coller. On essayait de s'est structurer. Aussi, la création des projets open source, des fondations open source, etc., ça vise un peu à éviter ce type de dérive donc moi je m'attends.
Roberto Di Cosmo:
[
20:15] Pas sûr à 100%, mais j'imagine qu'il y aura un moment de sagesse au bout d'un moment dans lequel on s'aperçoit que les codes jetables, comme tu dis, en réalité, ça pollue notre système informatique. Donc, il faut les maintenir. Donc, à un moment donné, il faudra les maintenir et à ce moment-là, on va peut-être voir apparaître des façons plus efficaces, plus denses, plus structurées, les mêmes structures que tu avais une fois dans les sociétés de service. D'une certaine façon, ils souhaitaient des services à récouter des stagiaires pour écrire du code, entre guillemets, jettable, parce qu'il n'était pas très bon. Mais il fallait quand même quelqu'un d'intelligent qui va faire fonctionner la machine, malgré les faits que les gens arrivent, partent, s'en vont et compagnie. Donc là, peut-être qu'il faudrait arriver dans cette direction-là. Mais attention, j'ajoute un élément. On arrive aussi à un moment historique important dans lequel autant il devient facile d'écrire du code, parce qu'on a l'assistance de ces systèmes, Moi, pour les personnes comme moi, qui ont appris à faire du code sans ces outils, c'est merveilleux, parce que ça nous fait gagner un temps incroyable. Mais c'est aussi parce qu'on comprend ce que les codes qui sont écrits, ils vont faire. Donc, ma grosse question est, qu'est-ce qui se passe avec les plus jeunes qui disent « Ah, il suffit de dire à ChatGPT ou à CloudCode, fais-moi un site web, hop ! » Et ils ne savent pas du tout ce qui se passe derrière. Ça, c'est un autre sujet sur lequel on discutait beaucoup avec les collègues.
Roberto Di Cosmo:
[
21:35] Mais vraiment, En parallèle, tu as des réglementations qui arrivent, par exemple les Cyber Resilience Act, qui imposent de ne pas diffuser. Ça, peut-être que les gens n'ont pas encore entendu parler beaucoup, mais toi, fin 2027, il est là, les Cyber Resilience Act, il sera impossible de mettre sur le marché européen n'importe quel produit qui a des rendus codes, qui a des vulnérabilités connues. Donc, il y a une obligation de signaler les vulnérabilités, les vulnérabilités, ça veut dire des erreurs qui peuvent avoir des conséquences sur la sécurité. Ça peut aller de la chose très banale, des caméras IP qu'on achète en Chine à deux balles et qui ont les mots de passe admin, admin, donc c'est bien un réseau des zombies pas possible, à des choses plus sérieuses, plus graves. Et donc, là-dedans, si tu génères tout le temps du code nouveau, comme ça, j'ai table, etc., comment tu fais à respecter tes obligations légales qui sont en train d'arriver ? donc ils ne sont pas encore là mais ils arrivent l'année prochaine donc voilà voyons voir où est-ce qu'on va.
Monde Numérique :
[
22:37] Dernière question, Roberto Di Cosmo. Alors, ce code, est-ce qu'on peut le récupérer, l'utiliser ? Tous les logiciels archivés sont en open source ?
Roberto Di Cosmo:
[
22:48] Alors, oui et non. Il y a beaucoup, beaucoup de logiciels qui n'ont même pas des licences. C'est la plupart des gens qui écrivent le code et ne savent même pas qu'il faut mettre une licence sur le code. Ils pensent que les mettre à disposition, ça suffit. Mais là, tout m'amène à une question vraiment importante. Dans la situation géopolitique extrêmement complexe dans laquelle on vit maintenant, on a fini pour se rendre compte que je dis « on », ce n'est pas forcément moi, c'est déjà un peu à niveau politique. On s'est rendu compte qu'on est extrêmement fragile, extrêmement dépendant des plateformes sous lesquelles on n'a aucune maîtrise. Donc, vous parliez de Gitab tout à l'heure. Gitab est une entreprise qui est sous le contrôle de l'administration américaine. Mais, par exemple, le développeur qui est par ailleurs, mais il n'est pas très grave la question c'est, il y a un seul pays qui peut toujours l'endement décider que tel état ou tel autre état ou telle entreprise ou telle personne n'a plus accès, à une certaine plateforme, chose qu'on a bien vu avec ce qui s'est passé avec les coups pénales internationales, mais aussi les développeurs Python.
Roberto Di Cosmo:
[
23:50] Et les gestionnaires des paquets Python API, c'est aux Etats-Unis mais aussi tous nos sites web les gestionnaires des paquets JavaScript, MPM ça c'est tout aux Etats-Unis aussi donc ça nous met dans une situation de fragilité massive,
Roberto Di Cosmo:
[
24:03] et là tu me disais, mais alors votre archive qu'est-ce qu'il vient faire là-dedans ? Mais d'effet, c'est pas juste un archive il contient tous les codes écrits ces matins, nous on collecte régulièrement tous ces codes-là et donc il devient possible sur SopTorage de construire une plateforme de.
Roberto Di Cosmo:
[
24:22] Résilience, des continuités logicielles qui fait en sorte que si on nous coupe l'accès à un code qui est ailleurs, On peut toujours se retourner vers l'archive pour le récupérer, continuer à fonctionner les temps qu'on met en place des contre-maisons. Alors que si aujourd'hui on coupe quelque chose, toutes les chaînes de fabrication du logiciel qui s'arrêtent nettes. Mais ça, ce n'est pas juste une question des chercheurs, c'est une question d'entreprise, c'est une question de sécurité nationale, partout. Donc c'est là-dedans que, sans le savoir, il y a dix ans, on s'est mis en marche pour construire une infrastructure qui est aujourd'hui le socle potentiel. Parce que les moyens dont je dispose dans le Sotoy-Joyogi sont très, très loin de ce qui est nécessaire pour répondre aux besoins si toutes les industries ou toutes les administrations viennent taper chez nous. Donc, il faudra que les entités qui ont des responsabilités à niveau françaises, européennes, prennent leurs responsabilités et financent le passage à l'échelle. La première étape, on l'a déjà fait, avec des miroirs un peu en Europe, mais il faut passer à la capacité de répondre à ça. Et donc, non seulement, oui, on peut télécharger, mais on pourra même garantir en certaine.
Roberto Di Cosmo:
[
25:31] Autonomie stratégique, mais j'aime bien les termes, je l'appelle écuménique. Parce que qu'est-ce que ça veut dire ? En général, quand on parle d'autonomie stratégique, c'est alors moi, j'ai une plateforme, donc toi, tu n'as pas, et du coup, voilà, c'est un bien rival. Alors que tu sais, depuis longtemps, j'ai travaillé un peu dans le monde du sol libre, etc., de l'open source, de l'open access, je tiens beaucoup aux objets non-rivaux. Et donc là, on essaie de construire une plateforme qui garantit de l'autonomie stratégique à tout le monde de façon non-rivale. Donc, s'il y a beaucoup de miroirs, ça veut dire d'abord qu'il y a plus de résilience, il n'y a plus de copie, on en perd moins. Et aussi, ça veut dire qu'il n'y a plus de contrôle unique, parce que chacun a sa copie. Donc, d'une certaine façon, en travaillant ensemble, on garantit un peu l'autonomie de tout le monde sans l'enlever à personne. Et donc, l'espoir, c'est d'arriver à faire tout ça. Mais, toi, il faut un peu de patience pour y arriver. Ce n'est pas si facile que ça. Surtout avec une structure qu'on sorte parce qu'il n'est pas une entreprise. Moi, je n'ai pas d'actionnaire, ni rien du tout. Et donc, on se base essentiellement sur la mutualisation des coûts et sur les gens. Voilà.
Monde Numérique :
[
26:38] En tout cas, vous avez posé les premières pierres. Merci Roberto Di Cosmo, fondateur et directeur de Software Heritage, accessible à l'adresse softwareheritage.org.