Un terme revient de plus en plus souvent lorsque l’on parle d'intelligence artificielle. Il désigne une réalité en passe de changer la donne en profondeur dans nos usages de l'IA.
Hôte:
[0:01] Lorsqu'on parle d'intelligence artificielle, il y a un terme en ce moment qui revient de plus en plus souvent. Un mot qui peut surprendre les non-initiés, un terme qui est utilisé également dans le domaine des transports, un terme pas si technique en réalité, et qui désigne quelque chose qui pourrait vraiment changer la donne en matière d'IA. Ce mot mystérieux et intriguant, c'est la multimodalité.
Hôte:
[0:26] Multimodalité, pourquoi fait-elle autant parler d'elle ? comme son nom l'indique, c'est le fait de traiter plusieurs modes. C'est le fait qu'une IA puisse traiter indifféremment du texte, bien sûr, mais aussi de l'image et du son, c'est-à-dire les trois composantes de notre monde habituel, si on met de côté, en tout cas pour l'instant, les odeurs, le toucher, etc. Car à la base, l'intelligence artificielle est spécialisée.
Hôte:
[0:53] Certains outils sont experts en traitement du texte, comme ChatGPT, d'autres en analyse d'images ou en production, en création d'images,
Hôte:
[1:01] d'autres encore en reconnaissance vocale, etc. La multimodalité, ça permet à une même IA de traiter et de combiner plusieurs types de données. C'est ainsi que les nouvelles IA, si on peut dire, sont encore plus intelligentes, puisqu'elles peuvent traiter non seulement du texte, mais elles peuvent aussi traiter non seulement du texte, mais aussi de l'image, de la vidéo, du son, et cela dans un sens particulier. Comme dans l'autre, car les IA deviennent multimodales en entrée et en sortie.
Hôte:
[1:30] Elles comprennent du texte, des images ou du son, et elles peuvent aussi elles-mêmes en produire. Alors les récentes annonces des géants de la technologie, OpenAI et Google notamment, jouent à fond cette carte de la multimodalité. Ainsi, le nouveau modèle GPT-4O d'OpenAI, présenté en début de semaine, est capable de voir quasiment ce qu'on lui montre à l'aide de l'appareil photo, du smartphone, et de le décrire. Et en plus, il peut tenir une conversation orale avec un réalisme incroyable
Hôte:
[2:00] grâce à des intonations de voix, des hésitations, des rires, des respirations, etc. Vous avez peut-être aperçu ces vidéos sur les réseaux sociaux. Google répond à OpenAI avec Project Astra, qui semble tout aussi puissant en termes de conversation.
Hôte:
[2:16] Et aussi Gemini Nano, un autre outil de Google, un LLM local, c'est-à-dire qui n'a pas besoin d'Internet pour fonctionner, qui est destiné au smartphone Pixel, et qui lui aussi devient, malgré cette apparente limitation multimodale, il pourra bientôt analyser une image sans connexion Internet. Enfin, avec Lens, un autre outil Google, on va pouvoir montrer des choses à Google en visio. Par exemple, quelque chose de bizarre dans le fonctionnement de sa voiture ou de son lave-vaisselle, pour trouver une solution, l'IA saura interpréter ce qu'elle voit, des voyants sur un tableau de machines électroménagées,
Hôte:
[2:52] qui ne sont pas toujours faciles à décrire par du texte. Bref, avec la multimodalité, on ouvre la voie à une multitude d'applications innovantes et utiles dans le quotidien, dans l'éducation, dans la relation client,
Hôte:
[3:05] pour l'accessibilité des personnes handicapées également. La multimodalité en intelligence artificielle, ce n'est donc pas seulement un terme technique ni un terme à la mode, C'est une vraie révolution qui promet de rendre nos interactions avec les machines encore plus naturelles, plus intuitives et plus puissantes que jamais.