Guillaume Braux:
[
0:01] Un document qu'on peut résumer en un fichier, si j'utilise un mot qui est connu de tous, ça peut être le matin sur votre poste de travail, ça peut être à midi dans une solution de stockage de fichiers ou déjà dans les nuages quelque part, ça peut être le soir en piège joint dans un email et ça
Guillaume Braux:
[
0:16] va finir en document joint dans votre CRM ou dans votre ORP. Donc ces contenus sont assez difficiles à maîtriser, à gouverner, de par le fait qu'ils naviguent au sein de l'entreprise, entre les collaborateurs, entre les outils. Et un de notre métier, c'est justement d'essayer de créer un petit peu cette couche de médiation, de telle façon de garantir l'unicité de l'information et derrière pouvoir l'exposer à travers l'ensemble des canaux qui vont nécessiter d'y avoir accès.
Monde Numérique :
[
0:48] Bonjour Guillaume Braux.
Guillaume Braux:
[
0:49] Bonjour Jérôme.
Monde Numérique :
[
0:50] Vous êtes directeur technique Europe du Sud chez Box.com. On va parler avec vous dans cet épisode de la manière d'utiliser au mieux l'intelligence artificielle en entreprise. L'IA, c'est formidable. Dans les entreprises, on le sait, c'est même devenu une nécessité. Et notamment pour automatiser le traitement et l'accès à l'information de l'entreprise. Mais ça pose une question essentielle. Comment profiter de l'IA sans perdre le contrôle des données de l'entreprise ? Comment éviter que ces informations, le plus souvent sensibles, ne s'éparpillent à l'extérieur ou même qu'elles ne s'éparpillent trop largement
Monde Numérique :
[
1:26] à l'intérieur ? C'est donc le thème de cette émission réalisée en partenariat avec Box.com. Et tout d'abord, est-ce que vous pouvez nous présenter un peu Box.com ? Alors, on sait que vous êtes donc un service de stockage et de partage de fichiers dans le cloud, mais plus précisément, comment est-ce que vous vous définissez ?
Guillaume Braux:
[
1:41] Alors, Box déjà a quasiment plus de 20 ans aujourd'hui, 2005. On a créé et initié ce marché du partage et de la diffusion, je dirais, granulaire et piloté de l'information à travers ce nouveau nuage qui était le cloud à l'époque. Et aujourd'hui, Box se définit comme une plateforme pour piloter, gouverner, centraliser l'information dite documentaire, information qui aujourd'hui représente globalement 90% de la donnée des entreprises.
Monde Numérique :
[
2:09] Quand on dit information, c'est quoi ?
Guillaume Braux:
[
2:10] C'est de la donnée non structurée qu'il faut différencier de la donnée dite structurée. Tout ce qui est structuré, c'est ce qui va être dans une base de données, c'est ce qui va être dans des outils métiers dont je connais, je dirais, la localisation, dont je connais l'accessibilité à l'information. Et la donnée dite non structurée, c'est tout le reste. Ça peut être vos factures, ça peut être un livrable pour un client dans le cadre de une société de conseil, ça peut être un plan autocad d'un grand acteur du BTP. Bref, ce sont tous ces contenus qui font aujourd'hui la majeure partie de la propriété intellectuelle des entreprises et qui est relativement occulté, je dirais à ce jour, en termes de gouvernance et de pilotage. Et on en parlera. Ce type de données est très pertinente aujourd'hui, car l'IA va pouvoir les augmenter, va pouvoir en tirer plein profit, de telle façon apporter plus de productivité aux collaborateurs.
Monde Numérique :
[
3:01] Alors, vous êtes une société américaine créée au début des années 2000. Quels sont vos clients et quelles sont les solutions dont on va parler ? À qui s'adressent-elles ?
Guillaume Braux:
[
3:10] On travaille avec... Énormément de marchés différents, énormément de typologies de clients, je dirais de la PME qui a des besoins particuliers en termes de partage sécurisé de l'information, ou d'un autre côté, de très grands groupes qui eux vont avoir par exemple des problématiques liées à très gros volumes de données qui pourraient être produites. On travaille beaucoup avec le monde des médias, avec le monde du divertissement qui nécessite d'agréger des gros volumes d'informations, d'aller analyser des gros volumes d'informations et aussi de diffuser au plus grand nombre ces données. Donc, je dirais, il n'y a pas de frontière en termes tant de taille d'entreprise que d'industrie. À partir du moment où le document est un élément clé, fait partie de la propriété intellectuelle de l'entreprise et crée sa valeur, on est là pour accompagner
Guillaume Braux:
[
3:54] ses clients dans le pilotage de toutes ces informations.
Monde Numérique :
[
3:57] Et l'une des difficultés, j'imagine, c'est que toutes ces informations, tous ces documents dont vous parlez, eh bien, ils sont sous forme de fichiers de toutes sortes, en fait. En fait, on ne parle pas seulement de texte, mais on parle aussi d'images, de vidéos, de projets 3D, etc.
Guillaume Braux:
[
4:13] Il y a une très grande diversité de typologies de contenus. Et ce qui va caractériser ce type de données également, au-delà de sa diversité et donc des multiples formes qu'il peut prendre, c'est son extrême volatilité. Un document qu'on peut résumer en un fichier, si j'utilise un mot qui est connu de tous, ça peut être le matin sur votre poste de travail, ça peut être à midi dans une solution de stockage de fichiers ou déjà dans les nuages quelque part, ça peut être le soir en piège joint dans un email et ça va finir en document joint dans votre CRM ou dans votre ERP. Donc, ces contenus sont assez difficiles à maîtriser, à gouverner, de par le fait qu'ils naviguent au sein de l'entreprise, entre les collaborateurs, entre les outils. Et un de notre métier, c'est justement d'essayer de créer un petit peu cette couche de médiation, de telle façon de garantir l'unicité de l'information et
Guillaume Braux:
[
4:59] derrière, pouvoir l'exposer à travers l'ensemble des canaux qui vont nécessiter d'y avoir accès.
Monde Numérique :
[
5:04] Et qu'est-ce que l'intelligence artificielle apporte aujourd'hui pour gérer tous ces documents ? C'est plus pratique qu'avant ?
Guillaume Braux:
[
5:10] C'est plus pratique et surtout, intelligence artificielle générative, derrière se cache cette notion de modèle de langage et rien de mieux qu'un contenu documentaire qui est en langagier la plupart du temps. Et les deux font très bon ménage autour de, je pense, trois grands enjeux. Un enjeu de productivité individuelle, comment je identifie plus facilement une information, comment je recherche plus facilement une information. Et là, on parle bien d'information et non pas de document. Donc, ça change aussi le paradigme.
Monde Numérique :
[
5:41] Oui, on veut savoir ce qu'il y a dans le document, Pas forcément le document lui-même dans son intégralité.
Guillaume Braux:
[
5:48] Absolument. On veut trouver une donnée, on veut trouver une information. Après, l'endroit où elle est, le typologie de document dans lequel elle est stockée, finalement, ce n'est pas ça qui importe aux collaborateurs. Mais on verra aussi que le fait d'apporter accès à de l'information et non pas du document, derrière, peut poser un certain nombre de risques en termes d'accessibilité. Donc ça, c'est le premier enjeu en termes de productivité. Le deuxième, c'est plutôt la plus productivité collective. C'est comment ces mécanismes intelligents vont permettre de mieux piloter mes processus. De mieux piloter des workflows de travail, par exemple. Je suis dans le monde de, je ne sais pas, la finance ou le monde mutualiste. J'ai besoin de valider des demandes de prêts. J'ai besoin de valider énormément de contenus. Comment l'IA peut faire partie de ce pipeline de validation ? Bien évidemment, toujours à côté de l'humain. On ne vient pas remplacer intégralement l'humain parce qu'on veut avoir une garantie que le processus est maîtrisé de bout en bout. Mais l'IA va peu intervenir pour identifier la présence d'une clause particulière dans un contrat. Pour identifier, je ne sais pas, un montant, par exemple, et qui va peut-être router le document d'une certaine façon par rapport à d'autres scénarios. Et enfin, le troisième élément, qui est plutôt un élément autour de la sécurité, parce que l'IA peut être un risque, mais l'IA peut aussi aider à couvrir un certain nombre de risques en étant plus agile et en automatisant la protection de l'information.
Monde Numérique :
[
7:08] Avant de parler de ces risques, parce qu'évidemment, c'est un point très, très important, encore sur les avantages, on va dire. D'abord, parce que toutes ces données, tous ces documents, c'est ce qui fait la valeur des entreprises, en fait. C'est vraiment, ce sont les assets, enfin, c'est essentiel.
Monde Numérique :
[
7:25] Est-ce qu'aujourd'hui, vous avez donné quelques exemples, puisqu'il y a des cas encore un peu plus précis, vous pouvez nous raconter sur la manière dont l'IA simplifie finalement l'accès à ces données ?
Guillaume Braux:
[
7:37] Alors, simplifie l'accès et simplifie aussi l'analyse. Ce qui va être important, c'est que, Ce type de technologie va nous permettre finalement d'associer l'information non structurée, les documents, avec des données structurées, à savoir ses caractéristiques. Et ça me permet d'atteindre, je dirais, des scénarios assez intéressants. On travaille, comme je le disais précédemment, avec beaucoup de groupes médias. Et comment je peux identifier facilement parmi, je dirais, un quorum de contenus ou de livrables que je vais fournir à mon client, ceux qui contiennent le logo de mon client ? Ces contenus peuvent être quoi ? Peuvent être des livrables textuels, peuvent être des présentations, peuvent être des images, peuvent être des vidéos. Et donc, fondamentalement, indépendamment de la typologie de l'information, l'IA me permet, je dirais, de détecter des caractéristiques.
Monde Numérique :
[
8:23] Pourquoi on voudrait rechercher le logo ? Pour, par exemple, s'il y a un changement de logo, des choses comme ça ?
Guillaume Braux:
[
8:26] Non, exemple extrêmement, je dirais, pertinent. Si, imaginez que c'est des supports de communication et que l'entreprise en question vous a autorisé à utiliser son logo et que le lendemain, elle décide de ne plus vous y autoriser.
Monde Numérique :
[
8:39] On le comprend, en effet.
Guillaume Braux:
[
8:40] Vous avez à peu près peut-être 500, 600, 1000 assets qui potentiellement contiennent cette information et vous n'avez plus le droit de l'utiliser. Comment vous allez identifier déjà quels sont les contenus qui pourraient contenir cette information ? Sans technologie issue de largement des langages, c'est quasiment impossible. Et ensuite, venir faire cette action d'extraire l'information de ces documents et qui permet de répondre à la problématique.
Monde Numérique :
[
9:04] Et alors donc aujourd'hui, ce que permet l'illage génératif, c'est d'interroger finalement toute cette masse de connaissances en langage naturel comme on le fait avec Chad GPT pour demander une recette de cuisine.
Guillaume Braux:
[
9:19] C'est une des caractéristiques, c'est un des canaux, comme je précisais préalablement, soit on a des caractéristiques liées à la productivité individuelle, je recherche de l'information, soit j'intègre ces mécanismes automatiques dans un processus. Effectivement, si on regarde la perception de chacun lorsqu'il s'agit de mettre en avant des technologies d'IA génératives au service d'un document, la première chose à laquelle on pense, et ce que vous citiez, c'est la recherche. C'est comment je retrouve plus facilement une information et derrière, pouvoir exploiter cette information pour des tâches d'analyse. Donc, au-delà de la simple recherche, c'est je veux trouver une information, mais je veux aussi peut-être corréler plusieurs informations. J'ai peut-être au sein de mon pool de documents liés à un projet particulier pour un client qui peut représenter des centaines, des milliers de documents, je veux être en mesure de pouvoir corréler certaines données pour me fournir une analyse et sur un périmètre de données qui est maîtrisé.
Guillaume Braux:
[
10:21] Et c'est là où on pourra parler de risque, c'est que ce périmètre de données, assez souvent, est peut-être difficilement maîtrisable au premier abord.
Monde Numérique :
[
10:28] C'est-à-dire ?
Guillaume Braux:
[
10:29] C'est-à-dire qu'aujourd'hui, les entreprises ont une telle masse d'informations, qui d'ailleurs est répartie dans de nombreux silos de données. Vous avez bien évidemment les applications bureautiques, qui aujourd'hui, je dirais, agrègent énormément d'informations documentaires, dont d'ailleurs pour certaines, elles ne devraient pas agréger, parce que certaines données ont besoin d'être pilotées dans le temps, Et on sait que du stockage bureautique n'est pas là pour avoir une gouvernance de la donnée. C'est du stockage à un instant T dans un objectif de collaboration ou de diffusion.
Monde Numérique :
[
10:57] C'est-à-dire, c'est le petit fichier qu'on laisse sur son ordinateur dans un répertoire caché dans un cas.
Guillaume Braux:
[
11:02] Exactement. Mais vous n'imaginez pas le nombre d'entreprises qui utilisent ce type de choses pour gérer des contrats. Là où fondamentalement, ce qui est important dans un contrat, ce n'est pas de stocker le contrat, c'est de savoir quand est-ce qu'il expire. C'est de connaître ses caractéristiques, c'est de connaître quand est-ce que je dois effectivement avoir des actions de renouvellement auprès de mes clients finaux. Donc, l'IA rajoute cette composante-là en me permettant de comprendre que ce document est un contrat, et derrière pouvoir avoir le bon pilotage, déjà, et savoir que ces documents existent, et la bonne sécurité qui est associée à l'ensemble de ces contenus.
Monde Numérique :
[
11:39] Et on peut intégrer ça dans des processus, y compris en laissant la main à des agents, Sous-titrage ST' 501.
Guillaume Braux:
[
11:47] Absolument. C'est vraiment la deuxième caractéristique que je précisais, productivité individuelle et ce que j'appelle productivité collective, qui est liée au service du pilotage.
Monde Numérique :
[
11:57] Et avec des automatisations, des choses comme ça.
Guillaume Braux:
[
11:59] Et avec ce qu'on pourrait appeler un peu du man in the middle ou man in the loop. À savoir qu'à un moment, l'IA peut vous fournir, dans le cadre du traitement d'un processus, un score de confiance qui n'est pas celui attendu. Elle n'est pas arrivée à identifier la clause particulière d'un contrat ou alors elle a identifié quelque chose, mais elle considère qu'elle est à 50% pas sûre de la qualité de sa réponse. Et donc là, on peut avoir des technologies qui vont faire en sorte que dans cette phase du processus, imaginez la validation d'un livrable où je dois passer par plusieurs étapes. Je dois valider l'intégrité du contenu je dois valider la mise en page je dois valider que les données sont correctes etc etc chose qui habituellement se fait par mail j'envoie un mail est-ce que tu peux me valider que mon document il est correct tiens je t'envoie un lien Teams ou autre ici là le but c'est que tout ce processus on l'ait maîtrisé, de bout en bout et que l'IA puisse intervenir à des moments clés, mais comme vous le précisiez sans forcément, être omniprésent et c'est ça
Guillaume Braux:
[
12:57] la particularité on ne veut pas fondamentalement que l'IA fasse tout Ça.
Monde Numérique :
[
13:02] C'est aujourd'hui. Mais est-ce qu'on dit que demain, les agents IA, justement, seront capables même d'émettre des devis ? C'est un autre agent qui va signer le devis et puis c'est un autre agent qui fera la facture, etc. Est-ce que le man in the loop, comme vous dites, ne va pas peu à peu finalement quand même disparaître ?
Guillaume Braux:
[
13:25] Je, à titre purement individuel, je ne pense pas de par la non garantie de l'utilisation de ce type de processus à travers des agents. Un agent peut très bien choisir pour une raison que tout le monde ignore, que seul lui connaît, de choisir la voie A plutôt que la voie B pour traiter un processus ou d'avoir une itération qui va lui conduire à une réflexion qui n'est pas du tout celle qu'on attendait.
Monde Numérique :
[
13:49] On l'a vu en laboratoire. On l'a vu même dernièrement. On a vu des choses assez incroyables, comme un agent qui décide tout d'un coup de vider la base de données d'une startup, de la mettre sur le carreau simplement parce qu'il avait trouvé un identifiant dans un coin et il pensait que ce serait la solution qui le permettrait d'accéder à son but.
Guillaume Braux:
[
14:08] Et d'autant plus lorsque la source de données avec laquelle l'agent travaille est un document. Tous les documents sont différents. Tous les documents contiennent des choses potentiellement différentes. Donc, lorsque le processus, je dirais, il n'est pas variable dans le sens où ce qu'on lui donne en entrée, c'est toujours la même chose. Il y a, énormément de chance pour que le résultat soit toujours le même. Si en revanche, on lui donne un entrée change et est différent et qu'on lui demande de finalement toujours atteindre le même objectif, à savoir traiter le processus de bout en bout, et bien là, on a beaucoup moins de garantie de cohérence. Donc, c'est pour ça que l'approche Man in the Loop est pertinente, où l'humain va venir vérifier l'information à partir du moment où l'agent qui intervient dans une partie du process, est-ce que ce contrat est en conformité RGPD, par exemple ? Il n'a que cette tâche-là à faire. Tout le reste, c'est des humains. Et à un moment, il y a cette tâche-là. Et s'il s'avère que l'agent dit, voilà la réponse, mais j'en suis sûr qu'à 50 %, là, on a des mécanismes qui font que l'humain revient au centre et va pouvoir valider ou non cette information.
Monde Numérique :
[
15:06] Alors, ça, c'est les bénéfices qu'on peut tirer de l'utilisation de l'IA. Quel est le risque, finalement ? On évoque ce cas un peu qui est encore de la science-fiction, de l'agent qui fait ce qu'il veut. Mais sinon, au niveau des humains, quelles sont les erreurs, finalement, qui peuvent être commises aujourd'hui en entreprise ?
Guillaume Braux:
[
15:25] Alors, il y a le risque humain intrinsèquement, le risque qui est lié à potentiellement une utilisation qui n'est pas appropriée. Et il y a aussi le risque qui est lié au quorum d'informations auquel justement l'IA accès. Et aujourd'hui, on voit plein d'expérimentations dans les entreprises et c'est poussé aussi par les solutions bureautiques qui intègrent de plus en plus ce type de technologie également dans le monde du grand public et qui consiste à dire, je vais avoir un agent justement qui va aller fouiller dans... 500 Teraoctets de données, tous mes contenus d'entreprise au format Microsoft Office ou PDF pour aller rechercher une information. Et là, je vous mets au défi de poser cette simple question. Quel est le salaire de mon patron ? Et il y a une potentialité pour que vous puissiez obtenir la réponse. Pourquoi ? Parce qu'aujourd'hui...
Monde Numérique :
[
16:15] Alors qu'on n'est pas forcément censé le savoir.
Guillaume Braux:
[
16:18] La plupart du temps, on n'est pas censé le savoir. Les lois sont en train de changer. Peut-être qu'on en saura un petit peu plus. Dans le futur. Mais ici, ce que ça démontre, c'est que l'IA travaille avec toute cette masse d'informations, mais informations que personne ne connaît ni personne ne maîtrise. On lui donne juste un silo de données. On lui dit, tiens, toi, tu vas travailler sur tout ce silo-là et tu vas aider mon collaborateur à chercher une information. Sauf que ce que ça va générer potentiellement derrière, c'est que aujourd'hui, je ne connais une information que si je sais où elle est. Si je ne sais pas où elle est et si je ne sais pas qu'elle existe, Je ne vais pas aller la chercher puisque je ne sais absolument pas qu'elle existe. Là, on va être dans une approche différente où l'agent va finalement peut-être faire ressortir des données qui me sont accessibles, mais dont je n'avais pas connaissance. Et ce paradigme-là est une vraie problématique et il a tendance à démontrer aussi un peu la non-gouvernance de la donnée. C'est que j'ai tout ce silo d'informations.
Monde Numérique :
[
17:15] Mais c'est en vrac, quoi. C'est une espèce de chaos.
Guillaume Braux:
[
17:18] Rien ne différencie un PDF d'un autre PDF. Rien ne différencie le menu de la cantine d'un projet de fusion-acquisition. Donc certes, l'IA fait ce premier tri, mais si je ne l'ai pas en amont, et si je ne lui ai pas en amont, je parle des documents, donner ses caractéristiques pour que l'IA puisse aller réellement chercher finement ces informations, il y a un risque, qui est celui que je décris, qui est de faire remonter à la surface des données qui n'auraient jamais dû remonter,
Guillaume Braux:
[
17:45] et qui peut être un risque en termes de sécurité et de gestion de la fuite de données.
Monde Numérique :
[
17:48] Et comment est-ce qu'on peut lutter contre ça, alors ?
Guillaume Braux:
[
17:51] Connaître ces documents, connaître cette fameuse information pour, à la source, aller venir lui peut-être associer un niveau de risque.
Monde Numérique :
[
17:59] Pour l'étiqueter, en fait.
Guillaume Braux:
[
18:00] Exactement. Cette notion d'étiquetage, on appelle ça de la classification dans le monde du pilotage et de la gouvernance documentaire.
Monde Numérique :
[
18:07] C'est ce qui se faisait à la main avant, lorsque tout était...
Guillaume Braux:
[
18:09] C'est le tampon secret défense, c'est le tampon confidentiel, c'est le tampon données personnelles.
Monde Numérique :
[
18:14] Etc. Les niveaux d'habilitation, etc.
Guillaume Braux:
[
18:18] Et l'objectif est de faire en sorte que tout soit tamponné. ne pas avoir un seul contenu d'entreprise qui n'est pas ce tampon qui, derrière, va bien évidemment appliquer des garde-fous, même sans parler d'IA, d'accès à l'information, mais va aussi aider, lorsque je vais mettre en œuvre des technologies de large modèle de langage, aider les modèles à faire en sorte de fournir la bonne information, celle qui est de confiance, celle qui est garantie. De la même façon, qu'est-ce qui différencie le brouillon d'un contrat de sa version finale, à part une petite mention ou un nom de fichier ?
Monde Numérique :
[
18:48] C'est-à-dire qu'il y a aujourd'hui un chatbot, par exemple dans vos solutions, vous fournissez un outil comme ça de chatbot conversationnel, est capable de répondre ou pas en fonction de qui pose la question finalement ?
Guillaume Braux:
[
19:02] Absolument. Le but, c'est que, lié à ces niveaux d'accréditation, lié à ces classifications de données, derrière, les modèles ne vont avoir accès qu'à une portion du fonds documentaire de l'entreprise. Pas tout, une simple portion qui est spécifiquement liée au collaborateur qui va poser la question. De telle façon, justement, éviter de faire remonter des données qui ne devraient pas l'être et assurer la protection de l'information.
Monde Numérique :
[
19:28] Et c'est ce qu'on voit dans les films, access denied, etc.
Guillaume Braux:
[
19:31] Exactement. Mais ça, l'IA est un révélateur que ce genre de choses est important, mais c'est quelque chose qui était beaucoup occulté par le passé. Pourquoi ? Parce qu'encore une fois, il y avait cette protection portée par l'ignorance, qui est de dire si je ne connais pas l'information, je ne sais pas où elle est, je ne la trouverai jamais. Là, l'IA l'a fait remonter. Donc, finalement, ce qu'on dit depuis nous, une vingtaine d'années, en disant tout doit être à minima piloté ou classifié, ici, maintenant que l'IA
Guillaume Braux:
[
19:59] devient un nouveau canal d'accès à l'information, ça se justifie d'autant plus.
Monde Numérique :
[
20:03] Et ça, vraiment, ça peut provoquer des catastrophes ? Vous avez observé des phénomènes parmi vos clients ?
Guillaume Braux:
[
20:10] En termes de fuite de données, absolument. Notamment d'accessibilité à de la donnée qui ne devrait pas être, publique, que ce soit dans des organisations notamment start-up, d'ingéniering, des données d'ingénierie liées à des nouveaux produits où on veut... Alors, on n'est pas forcément sur des choses extrêmement critiques, mais imaginez un scénario où je veux, j'ai une campagne marketing qui va être lancée, j'ai un produit majeur qui est une innovation majeure. Si l'information fuite, c'est un peu comme chez Apple où il y a toutes ces tierces parties qui essaient d'avoir l'information, il y a des entreprises qui produisent des produits qui sont tout aussi attendus que l'acteur dont on vient de parler et qui peuvent faire face à ce type de choses. Et l'IA peut être un générateur de fuite de données plutôt qu'un outil de productivité.
Monde Numérique :
[
20:55] Et qui seront ravis évidemment de mettre la main sur ces données. Alors ça, Là, c'est autre chose. C'est la fuite de données vers l'extérieur de l'entreprise. Qui est également un énorme risque.
Guillaume Braux:
[
21:04] Les deux sont des risques. Le plus gros vecteur aujourd'hui de fuite de données documentaire des entreprises sont liés au facteur humain. Ce n'est pas lié fondamentalement à des problématiques de cybersécurité. Le facteur humain, c'est ce qu'on disait, c'est j'ai accès à une donnée auxquelles je ne devrais pas avoir accès.
Monde Numérique :
[
21:22] Mais parce que où est l'erreur humaine dans l'histoire ? C'est que ça a été mal étiqueté avant.
Guillaume Braux:
[
21:26] Absolument. Si j'y ai accès, moi, à titre individuel, je n'ai pas fait d'erreur.
Monde Numérique :
[
21:30] C'est quelqu'un qui a fait un rapport, il l'envoyait à quelqu'un d'autre et puis involontairement ou peut-être volontairement par souci de facilité, il a dit « ok, tout le monde peut accéder à ça ».
Guillaume Braux:
[
21:40] C'est ça.
Monde Numérique :
[
21:41] On donne trop d'autorisation.
Guillaume Braux:
[
21:43] On donne trop d'autorisation et après, la frontière entre l'usage inapproprié et la malveillance, elle est faible. Pareil dans un cas assez fréquent d'ailleurs nous on le voit quasiment systématiquement c'est la première chose qu'on nous demande d'ailleurs quand on commence à apporter une stratégie de structuration unique de l'information documentaire, imaginez quelqu'un qui est très peu actif autour de toutes ces données et qui du jour au lendemain se met à télécharger 50 Teraoctets de données de l'entreprise.
Monde Numérique :
[
22:13] C'est pas bon signe ça c'est rarement bon signe.
Guillaume Braux:
[
22:16] C'est qu'il.
Monde Numérique :
[
22:16] A des idées derrière la tête.
Guillaume Braux:
[
22:18] Et ça jusqu'à maintenant on avait très peu de mécanismes pour être capable de le détecter ou de l'endiguer, ou alors on était sur des mécanismes extrêmement statiques. Le problème, c'est que moi, dans mon métier, je ne vais pas forcément nécessiter d'avoir accès à autant d'informations ou de télécharger autant. Par contre, une équipe marketing, communication ou créatif, ça peut être justifié ou justifiable d'aller d'un seul coup télécharger ces gros volumes d'informations. Donc derrière, l'IA nous aide aussi à faire du profiling, faire du profilage de chaque collaborateur. On est un peu dans la science-fiction, mais c'est une réalité aujourd'hui dans Box notamment, d'aller identifier les typologies d'usage de chacun, Que ce soit les collaborateurs internes de l'entreprise, mais que ce soit également les tiers externes, pour identifier comment ils manipulent la donnée, quel type de données ils manipulent. Et si on détecte des anomalies par rapport à ce profil, dans ce cas-là, il y a une alerte. Dans ce cas-là, on bloque le compte du collaborateur. On lance une alerte auprès des équipes SOC ou InfoSec de l'entreprise pour demander d'auditer la pertinence ou non de l'action qui a été réalisée.
Monde Numérique :
[
23:20] Il y a aussi autre chose, un phénomène dont on parle beaucoup aujourd'hui, Guillaume Bross, c'est le fameux Shadow AI, l'IA fantôme. C'est-à-dire des collaborateurs qui vont poser des problèmes liés à leur entreprise et à leur travail et qui vont interroger des chatbots extérieurs, ChatGPT, Gemini, Claude, n'importe lequel. Ça, c'est un risque majeur aussi en termes de fuite de données ?
Guillaume Braux:
[
23:49] C'est un risque majeur sous deux angles. sous un angle juridique. Tout d'abord, parce que les sociétés à laquelle vous confiez ces fameux documents analysés, il n'y a pas que les big players dont vous venez de parler, mais il y en a plein d'autres qui fleurissent dans tous les sens. Et aujourd'hui, il y a qui appartiennent ces documents ? Qui sont déposés dans un chatbot pour être analysés ? C'est une question légitime qui peut se poser.
Monde Numérique :
[
24:15] Et qui n'est pas encore vraiment tranchée. Qui n'est pas tranchée ? Ça dépend des pays, en plus.
Guillaume Braux:
[
24:19] Ensuite, avec le risque que ces contenus se voient alimenter la base d'apprentissage du modèle. Ce qui veut dire qu'intrinsèquement, je peux avoir des contenus qui sont sensibles, qui sont censés être internes et qui peuvent se retrouver derrière dans la connaissance intrinsèque d'un large modèle de langage. Et n'importe qui qui ferait des inférences autour de ce modèle aurait accès à mon information d'entreprise. Donc, on peut arriver à des scénarios complètement fous, on n'y est pas encore aujourd'hui, mais c'est quelque chose qui peut être envisageable dans le futur. Donc, Pour adresser cela, il faut endiguer ce fameux shadow AI dont on parle et l'endiguer comment ? En faisant en sorte de pouvoir apporter les outils qui apportent le maximum de productivité aux collaborateurs, mais qui restent dans un cadre qui soit
Guillaume Braux:
[
25:08] maîtrisé et piloté par l'entreprise. Et donc, ça peut être des outils tels que Box, par exemple, si on adresse le volet d'analyse documentaire. Mais nous, notre métier se limite au champ de données non structurées. J'ai plein de pertinences à utiliser de l'IA aussi pour des données dites structurées, extraire de l'information de mon CRM, analyser des chiffres de mes outils de comptabilité.
Monde Numérique :
[
25:31] Mais je ne pourrais pas demander à votre outil d'aller chercher des ressources à l'extérieur, par exemple, pour construire, je ne sais pas quoi, une présentation au PowerPoint ou quelque chose comme ça ?
Guillaume Braux:
[
25:40] C'est un choix intrinsèque que l'on a fait pour essayer d'avoir un petit peu des frontières qui soient relativement étanches et garantir qu'à partir du moment où je suis dans le cercle fermé de mon environnement de gestion documentaire, toute l'information qui va m'être renvoyée par un modèle soit exclusivement basée sur la connaissance de l'entreprise. C'est un choix stratégique qui a été fait de telle façon à pouvoir avoir une garantie de la pertinence de l'information et qu'on n'est pas allé chercher sur Internet un article périmé pour enrichir la réponse qui a été donnée. Cependant, l'inverse n'est pas vrai, qui est que l'objectif, c'est aussi de permettre à tous ces chatbots un peu plus génériques dont on parle, qui permettent des choses peut-être plus avancées au-delà du volet documentaire, permettent à ces chat GPT, à ces cloud, à ces modèles tierces de venir pouvoir interagir de façon sécurisée avec les données qui sont aujourd'hui stockées et centralisées.
Monde Numérique :
[
26:42] Ça, c'est possible.
Guillaume Braux:
[
26:42] C'est possible. Et donc, finalement, on devient... Un petit peu le file system de l'IA. Et donc, l'IA va pouvoir interagir avec de façon à accéder à l'information, mais toujours avec le même niveau de sécurité et de protection que celui dont on parlait précédemment. Je suis sur ChatGPT. C'est mon outil corporate d'entreprise qui a été sélectionné. Derrière Box et le file system, c'est toute ma base documentaire. Les deux peuvent interagir. MCP, le modèle contexte protocol, qui permet désormais de fluidifier les échanges. Mais tout en garantissant que si c'est Guillaume Braux qui est sur ChatGPT et qui pose des questions lambda, ChatGPT va pouvoir aller chercher dans Box, mais n'aura toujours accès qu'au document auquel j'ai moi-même accès. On n'est pas à ouvrir toute la donnée de l'entreprise à ces outils, c'est simplement dans un contexte particulier, lié à des individus particuliers, lié à un niveau d'habilitation particulier.
Monde Numérique :
[
27:38] C'est de l'IA, c'est du chatbot conversationnel. On sait qu'en tout cas, les chatbots grand public, où on a pu, à certains moments, les manipuler. Leur tordre le bras, à coups de prompt, ce qu'on appelle le prompt injection,
Monde Numérique :
[
27:52] l'injection de prompt, donc lui faire raconter des histoires. Est-ce que, malgré tout, ça, ce n'est pas un risque également pour vous ?
Guillaume Braux:
[
27:59] C'est un risque, mais ça, c'est inhérent au modèle sous-jacent. Nous, on va plutôt essayer de mitiger le risque. Et le premier niveau de mitigation, c'est celui dont on parlait juste avant, qui est déjà de réduire le périmètre d'information qui est accessible.
Monde Numérique :
[
28:14] Pour parler concrètement, je ne peux pas, par exemple, sur l'outil interne de l'entreprise, me faire passer pour quelqu'un d'autre, d'un autre service, etc., en racontant une histoire au chatbot ?
Guillaume Braux:
[
28:26] Non, on ne pourra pas. Architecturalement, c'est techniquement impossible parce que ne sera communiqué au modèle que les informations que Box, que l'outil de ce fameux file system, aura déterminé comme étant à la fois pertinent et deux, pour lesquels j'ai une habilitation. Et ça, c'est indépendant du modèle. C'est-à-dire que ce choix, cette sélection initiale de l'information qui va ensuite nourrir le modèle et nourrir sa réflexion, ce choix, il est exclusivement réalisé par nous, par l'outil. Et finalement, ce n'est qu'en dernière partie de ce processus qu'un modèle est mis en œuvre pour produire la réponse dans un langage le plus pertinent possible, pour réaliser une analyse. Mais l'information qui est à la source, ce n'est pas le modèle qui la détermine. Donc c'est complètement différent d'un cloud co-work ou autre qui va chercher dans toutes vos données qui sont potentiellement accessibles pas liées à vous en tant qu'individu mais accessibles sur un outil technique, sur votre ordinateur ou autre l'approche est complètement différente ce n'est pas l'agent, qui détermine l'information qu'il va utiliser. C'est le processus inverse. On détermine l'information, nous, utilisable par l'agent et lui n'a accès qu'à cette donnée.
Monde Numérique :
[
29:38] Autre interrogation, j'imagine, de la part de vos clients, c'est tout ce qui touche à la fameuse souveraineté, souveraineté numérique. Vous êtes une entreprise américaine. Quelles garanties vous offrez à vos clients par rapport à ça ?
Guillaume Braux:
[
29:49] Justement, sur le volet un petit peu sécurité ou protection de l'information, il y a trois parties. La première, on en a déjà parlé, c'est se protéger, se prémunir contre les facteurs humains. Aujourd'hui, la plus grosse source de fuite de données et de risques liées à ces données, c'est encore une fois pas la législation, c'est pas tout ça, c'est je partage à la mauvaise personne, je me trompe de destinataire ou j'ai accès à une donnée auquel je ne devrais pas avoir accès. Donc ça, aujourd'hui, ça représente la majeure partie des risques. La deuxième partie, c'est tout ce qui est cyber. Donc, tout ce qui est lié à la protection d'usages malveillants, on en parlait aussi. Et enfin, la troisième partie, c'est exactement le sujet que vous évoquez, c'est la régulation. C'est comment je m'assure d'être en conformité avec les régulations locales, les régulations nationales, les régulations mondiales. Et là, il y a plusieurs mécanismes qui peuvent rentrer en ligne de compte. Des mécanismes aussi simples que.
Guillaume Braux:
[
30:42] Des notions de délégation de chiffrement, par exemple. Ça, ça nous est beaucoup demandé dans le monde de la santé, dans des secteurs régulés, faire en sorte que l'éditeur de la solution qui va stocker la donnée, la diffuser, etc., puisse à tout moment être rendu aveugle de l'information qu'il va stocker et manipuler. Moi, j'appelle ça, c'est le kill switch, c'est le gros bouton rouge que vous avez sur une machine industrielle, où quand le robot commence à faire n'importe quoi, j'appuie sur le gros bouton rouge et tout s'arrête. On est dans ce type de philosophie où on se dit pour offrir un service à valeur ajoutée à nos clients, bien évidemment que à un moment, le cloud veut que ces données aient besoin de transiter dans des services d'analyse ou autre. Mais avoir cette garantie qu'à tout moment, je peux appuyer sur le bouton rouge et que j'ai la responsabilité comme je disais, notamment la clé de chiffrement qui est utilisée, l'éditeur en est aveugle, s'il en devient aveugle, Tout s'arrête et plus personne n'a accès à aucun service, y compris l'éditeur, sur le fameux Cloud Act, injonction des autorités américaines, etc. J'appuie sur le bouton rouge d'appui Paris. Je m'assure qu'à Washington, il n'y a absolument rien qui est accessible.
Monde Numérique :
[
31:57] Allez, encore une question et non des moindres, et puis on en terminera avec ça. L'IA est indispensable, Mais on s'aperçoit que c'est un coût de plus en plus important dans les entreprises, un coût qui, en plus, est encouragé par les fournisseurs de solutions. John Tsien-Wang, le patron de Nvidia, qui dit que les ingénieurs, les développeurs doivent consommer l'équivalent de la moitié de leur salaire en token IA. Sinon, ça veut dire qu'ils ne travaillent pas. Bon, OK. Mais derrière, c'est l'entreprise qui doit payer tout ça. Donc, un service comme le vôtre ou ce genre d'IA-là, combien elle coûte ?
Guillaume Braux:
[
32:33] Il y a deux composantes. Il y a l'IA en elle-même, le modèle, mais nous, on n'est pas éditeurs de modèles. Notre métier, c'est de structurer, gouverner, piloter, analyser l'information. Donc, il faut déjà qu'on adresse ce premier point qui est que cette première étape, cette couche basse de dire mon information, il faut bien qu'elle soit quelque part pour que l'IA y ait accès. C'est déjà générateur de coûts. indépendamment même que j'utilise de l'IA ou pas le simple fait de stocker des données et des énormes volumes de données c'est en croissance exponentielle au cours des années précédentes fait que le simple coût du stockage, peut déjà devenir prohibitif. Si on commence à rajouter au-dessus de l'IA, là, ça devient quasiment impossible. Et on peut arriver à des scénarios, comme on le voit chez beaucoup de clients, où ils vont venir ségréguer volontairement leurs données, alors que tout était bien agrégé dans des outils bureautiques, par exemple. À un moment, le prix du stockage de ces outils, qui se comptent en plusieurs dizaines de centimes par giga, peut devenir prohibitif. Et donc, on est obligé de faire le ménage, mais faire le ménage assez souvent à but technique et pas à but de gouvernance.
Monde Numérique :
[
33:40] Comme on le ferait sur son disque dur parce qu'on est ric-rac.
Guillaume Braux:
[
33:43] Voilà. Et ce ménage peut finalement extraire peut-être des données pertinentes que l'IA ne pourra plus analyser. Donc, le vecteur coût, c'est, un, s'assurer que cette couche de base qui agrège l'information, qui la stocke, n'est pas une variabilité de coût. Donc, nous, on fait du stockage illimité. Au moins, il n'y a pas de souci. On peut choisir de, je dirais, consolider tout son fonds documentaire à un seul endroit pour toutes ses applications avec une prédibilité de coût que je stocke 10 gigas ou 16 pétats comme un acteur des médias avec lesquels on travaille, ça coûte la même chose, et derrière, de façon à démocratiser l'accès à ces fonctionnalités IA, et bien les intégrer de façon transparente dans le modèle économique qui fait qu'aujourd'hui les quelques... Cas d'usage que j'ai pu vous détailler, la plupart du temps, ne sont absolument pas générateurs de coûts.
Monde Numérique :
[
34:28] Très bien. Allez, si vous aviez un tout dernier conseil à donner à une entreprise qui veut utiliser de l'IA pour rendre ces données plus intelligentes, sans prendre de risques.
Guillaume Braux:
[
34:39] C'était ça mon sujet, c'est avant de cliquer sur le bouton, se poser la question du risque qui est associé et peut-être aussi en profiter, justement, parce que c'est une opportunité. Au-delà d'être un risque, Est-ce que c'est aussi une opportunité de pouvoir se dire, je vais déployer de l'IA ? Certes, le cas d'usage principal, entre guillemets, le plus visible, c'est la recherche. Mais profiter de cela pour se dire, est-ce que l'IA ne peut pas aussi impacter d'autres processus métiers, qui sont peut-être aujourd'hui manuels et faire en sorte que l'outil peut-être futur qui sera sélectionné pour porter cette stratégie d'IA documentaire puisse avoir cette capacité, Non pas juste de faire de la recherche un peu plus intelligente qu'avant, mais capacité réellement d'adresser des processus complexes d'entreprise avec de l'accompagnement humain, comme on disait, parce qu'un agent tout seul, moi, je n'y crois pas.
Monde Numérique :
[
35:34] Merci Guillaume Braux, directeur technique Europe du Sud de Box.
Guillaume Braux:
[
35:39] Merci Jérôme.