Les objets connectés pour la maison sont de plus en plus équipés de caméras vidéo boostées à l'intelligence artificielle.
Les sonnettes vidéo de la marque Ring, filiale d’Amazon, permettent de de surveiller ce qui se passe devant chez soi. Les nouveaux modèles permettent même de détecter automatiquement des types de personnes (livreurs, facteurs, ou rodeurs) ou des comportements. Ces fonctions évoluées posent cependant des questions quant au respect de la vie privée.
🎙 Rencontre avec Laurent Brisedoux, Directeur R&D Computer Vision chez Ring.
Mots-clés : Amazon, caméras, domotique, IA, intelligence, intelligence artificielle, iOT, objets connectés, Ring, sécurité, technologies, vidéo.
Monde Numérique : Bonjour Laurent Brisedoux.
Laurent Brisedoux : Bonjour Jérôme,
Monde Numérique : Vous êtes directeur Recherche et Développement spécialisé dans la vision par ordinateur chez Ring, marque américaine bien connue d'objets connectés pour la maison. De plus en plus, la vidéo est présente dans les. Dans les produits domotique Ring, on trouve de la vidéo dans plusieurs de vos produits aujourd'hui. Pour quelle raison?
Laurent Brisedoux : Donc la plupart de nos produits sont conçus autour de la vidéo. Et ça a commencé quand le créateur de Ring a créé la compagnie et. Et la petite histoire, ou plutôt la grande histoire, c'est que il avait il avait un prototype et donc sa femme m'avait demandé. Moi ce que j'aimerais bien c'est pouvoir voir ce qui se passe devant ma porte avant d'aller répondre. Et donc il y a dix ans, toutes les technologies qui permettent de faire ça étaient déjà étaient déjà présentes. Il y avait déjà la vidéo numérique, il y avait déjà le sans fil, le wifi, tout ça, ça marchait. Donc il a intégré dans une sonnette traditionnelle une caméra qui permet d'envoyer la vidéo sur un téléphone et donc qui permet de répondre à, de répondre à votre porte sans forcément être là, que vous soyez dans une autre pièce, dans la maison ou même si vous n'êtes pas là.
Donc c'est comme ça que ça a commencé. Et donc la plupart des produits ont une… caméra. Donc ça a commencé avec la sonnette vidéo sans fil avec fil. Après on a on se déplaçait sur la caméra de sécurité dans la maison, puis l'alarme et et donc on a aussi rajouté des lumières et récemment on a lancé le ring intercom. C'est probablement un des seuls produits qui n'a pas, n'a pas de caméra qui permet de répondre à une porte là où il y a déjà un intercom sans avoir une caméra. Hum.
Monde Numérique : Alors tout ça. Et bien évidemment, c'est bourré de technologie, d'intelligence artificielle, de plus en plus de reconnaissance intelligente des images, vidéos, etc. C'est là dessus que vous travaillez, Donc c'est une équipe. Si on parle un petit peu de votre équipe de recherche et développement. Vous, vous êtes français, vous dirigez ça, c'est une part importante de l'activité de la société aujourd'hui.
Laurent Brisedoux : Oui, tout à fait. Donc ça, ça a commencé avec avec la vision par ordinateur, étant donné qu'on avait une caméra. Et l'idée c'était de rendre l'appareil un peu plus intelligent, Donc, une sonnette. Quand quelqu'un s'approche de votre maison, certaines personnes vont vont appuyer sur le bouton. Vous allez pouvoir répondre et vous, vous savez qu'il y a quelqu'un. Mais des fois, il se peut que ce soit quelqu'un qui passe devant chez vous, qui s'approche, qui reparte. Vous ne savez pas forcément. Donc on a commencé à rajouter des fonctions qui permettent d'automatiser un petit peu la détection de ce qui se passe devant chez vous, étant donné qu'il y a la caméra. Et ça permet deux choses. La première, c'est que ça vous permet de recevoir des notifications seulement quand il y a quelque chose qui vous intéresse. Et ça permet aussi de filtrer les choses qui ne sont pas importantes. Par exemple, une personne ne veut pas forcément recevoir de notifications. On en reçoit plein sur nos téléphones. De nos jours, à chaque fois qu'il y a un chat qui passe devant la maison. Donc l'intelligence artificielle, là, à partir de de vision par ordinateur, va vous permettre d'éliminer cette cette fausse détection que vous ne voulez pas recevoir. Mais dans le cas où c'est par exemple quelqu'un qui dépose un colis devant chez vous, vous allez recevoir une alerte. Dans ce cas là, on va pouvoir détecter qu'il y a un colis qui a été déposé devant chez vous et vous saurez que il y a un colis devant chez vous. Si vous n'êtes pas là, rentré peut être plus vite parce que on sait pas combien de temps il va être là.
Monde Numérique : Ça s'adresse quand même en priorité à l'habitat, comment on appelle ça résidentiel, enfin à des villas et pas de la part des appartements.
Laurent Brisedoux : Donc on a aussi des produits qui sont spécialisés pour les appartements. Donc l'intercom, le ring intercom en particulier, c'est pour des bâtiments à entrée commune où vous n'avez pas forcément accès à la porte principale pour pouvoir y mettre une sonnette. Donc vous branchez sur le récepteur de votre appartement et ça vous permet de de répondre à distance sans forcément être à la maison. Ouvrir la porte commune Si quelqu'un veut livrer un colis ou parler avec quelqu'un qui veut vous parler. On a aussi des caméras. On a une caméra qui s'appelle la caméra D'orvus. C'est une caméra qui va remplacer le judas. Donc il y a une petite caméra qui va dans le judas. Ça vous permet d'avoir la même chose que si vous étiez à l'extérieur, sauf que c'est dans un appartement à l'intérieur. Donc vous pouvez voir ce qui se passe devant votre porte d'appartement.
Monde Numérique : C'est avec ces toutes ces caméras qu'on voit se multiplier sur les réseaux sociaux des petites vidéos de scènes parfois insolites qui se passent devant les maisons, entre le livreur qui jette le paquet n'importe comment, même des scènes d'agresseurs potentiels, etc. De nouveaux types d'images qui circulent ici et là aujourd'hui?
Laurent Brisedoux : Tout à fait. Et la plupart du temps, vous allez voir, il y a un petit logo Ring où il y a la musique de Ring qui est qui est bien reconnue, surtout aux Etats-Unis. C'est un produit qui est commencé aux Etats-Unis et qui arrive seulement ou qui est arrivé il y a quelques années déjà en Europe, mais qui est pas aussi populaire mais qui devient de plus en plus populaire parce que les gens veulent savoir ce qui se passe devant chez eux. C'est très pratique un produit comme la sonnette en particulier si vous êtes dans une salle différente où vous êtes en train de faire de la cuisine ou je sais pas, vous voulez voir ce qui se passe? Vous pouvez faire ça depuis votre téléphone, C'est quand même drôlement pratique.
Monde Numérique : Quel est l'intérêt de mettre toujours plus de vidéos et toujours plus de vidéos intelligentes ? Quelles sont les fonctions en termes de vidéos intelligentes qui peuvent exister aujourd'hui ?
Laurent Brisedoux : Donc pour les produits vidéo intelligents, il y en a partout Maintenant, votre télé intelligente a probablement une caméra qui permet de détecter. Vous êtes là où vous n'êtes pas là. Le plus souvent, c'est pour de la présence et ça permet de changer le fonctionnement du produit. Donc pour les produits Ring, la présence c'est très important, en particulier quand vous avez une sonnette, ça vous permet de déterminer s'il y a quelque chose qui se passe devant chez vous, de faire la différence entre c'est le facteur par rapport si c'est le facteur ou c'est un animal, ou c'est simplement un arbre qui bouge. Donc plus vous êtes intelligent, plus vous allez pouvoir envoyer des notifications qui sont personnalisées. Donc par exemple sur une sonnette, personnellement, moi je préfère seulement être notifié quand il y a quelqu'un de formes humaine qui s'approche plus ou moins à deux trois mètres de ma porte. Tout le reste, je n'ai pas besoin de savoir, ça ne m'intéresse pas. J'ai juste besoin de savoir que quelqu'un s'approche de chez moi, soit parce qu'il va y avoir une livraison, soit parce qu'il y a quelque. Je ne sais pas qui veut regarder à travers ma porte, savoir ce qui se passe à l'intérieur ou j'attends simplement la visite d'un ami et je veux pouvoir être là à leur ouvrir ou quelque chose comme ça. Donc c'est là où l'intelligence vous permet de faire quelque chose qui vous convient le plus. Sur les produits intérieurs, c'est la même chose. Donc nous avons aussi des caméras, donc des caméras à l'intérieur des caméras extérieures. Donc à l'extérieur, ça va être similaire en termes de détection que va voir. Mais à l'intérieur, c'est très différent. Par exemple, à l'intérieur, je vais avoir une caméra vers mon bureau qui va détecter quand mon fils vient. Je lui ai dit Je ne veux pas forcément qu'il soit vers mon bureau parce qu'il va, il va jouer avec mon ordinateur et ou quelque chose comme ça. Ou alors je veux surveiller le chien ou le chat dans une pièce. Donc là c'est moins la sécurité, c'est plus surveiller un petit peu ce qui se passe chez soi, être plus en confiance et savoir qu'on a toujours accès à la vision et qu'on et la caméra va détecter s'il y a quelque chose qui se passe.
Monde Numérique : Quel est le niveau de fiabilité de cette reconnaissance, de savoir si c'est un humain, un oiseau, un chien, etc. Aujourd'hui ?
Laurent Brisedoux : Alors ça va dépendre de type de classification qu'on fait. La détection humaine et la précision est assez assez haute dans les dans les 90 %. Donc l'intelligence artificielle ce n'est pas parfait, On essaye que ça soit le plus proche de de 100 %, mais en général c'est pas possible. C'est quand même basé sur sur des statistiques, sur des réseaux de neurones. C'est un peu comme le cerveau humain, c'est pas complètement parfait et et sur des produits comme comme nos produits où on va fonctionner beaucoup en embarqué, il n'y a pas forcément beaucoup de puissance de calcul et donc on va quand même garder des modèles assez simples et donc qui vont tourner dans les dans les 90 % de précision. C'est à dire que peut être, une fois sur dix, vous allez recevoir une notification, qu'il y a quelqu'un devant la caméra, et ça se peut que ça soit un chat ou ça se peut que ça soit une ombre, ça se peut que ça soit une ombre qui ressemble à une forme humaine. Et donc l'ordinateur embarqué ne va pas forcément voir la différence.
Monde Numérique : Et ça va jusqu’où ? En terme de reconnaissance, ça va jusqu'à la reconnaissance faciale éventuelle.
Laurent Brisedoux : Nous ne faisons pas reconnaissance. La reconnaissance faciale, nous refusons ce qu'on fait surtout en ce moment, c'est la reconnaissance de forme, donc une forme humanoïde, la reconnaissance de personne. On fait aussi la reconnaissance d'objet, donc les colis qu'on a lancé l'année dernière et il y a plusieurs classes sur lesquelles on peut, on peut, on peut travailler et aussi on fait du mouvement en général. Donc ce n'est pas forcément reconnaître quelque chose spécifique, mais plus la notion de mouvement, quelque chose qui se déplace, quelque chose qui bouge dans une zone de mouvement particulière, ce qui va permettre d'être beaucoup plus précis. Donc même si les algorithmes ne sont pas parfaits à 100 %, si vous pouvez sélectionner une zone où vous voulez détecter le mouvement, ça vous permet d'être beaucoup plus précis au niveau du système quand vous recevez des notifications.
Monde Numérique : C'est super pratique, mais évidemment, ça pose des questions de respect de la vie privée. En France, on n'a pas le droit de filmer comme ça la voie publique et tous les gens qui passent devant chez soi. Comment est ce que vous faites par rapport à ces contraintes réglementaires ?
Laurent Brisedoux : Donc, nous, ce qui est le plus important, premièrement, c'est qu'on est très transparent sur ce que nos produits font, ce qui permet à nos utilisateurs de savoir ce que le produit fait et on met ensuite en place. On a mis en place des fonctionnalités qui permettent d'aider les utilisateurs à respecter les régulations de leur pays. Donc ça varie de pays en pays. Mais en général tous les pays, dans tous les pays c'est il ne faut pas enregistrer son voisin. Donc on a des fonctions comme par exemple les zones privées ou je ne sais pas comment ça s'appelle en français, mais des zones privées, ça vous permet de mettre un carré noir si par exemple votre caméra, elle voit un petit peu chez le voisin ou la voie publique, parce que le champ de vision assez large, vous allez capter un peu de tout et selon comment elle est positionnée. Donc ça vous permet de mettre un panneau noir et tout ce qui est enregistré dans cette zone sera complètement noir et ne pourra pas être enregistré.
On a aussi des fonctions qui permettent de supprimer l'enregistrement des sons. Par exemple, si votre caméra est un peu trop proche d'un voisin ou la voix privée qui permette, elle puisse enregistrer des choses qu'elle ne devrait pas vous permettre, elle vous permettre. On vous permet de contrôler tout ça.
Monde Numérique : Oui, encore faut il que la personne qui utilise et qui installe un produit comme ça soit de bonne volonté et accepte de faire tout ça parce qu’est ce qu'on n'est pas tenté au contraire d'utiliser ça pour espionner ses voisins ?
Laurent Brisedoux : Ça, c'est vraiment, c'est pour les utilisateurs de décider. Il y a plein de choses qu'on peut acheter de nos jours qui peuvent être user d'une manière illégale ou pas normal. Ça c'est pas vraiment, c'est c'est l'utilisateur vraiment qui décide.
Monde Numérique : Alors, toujours en termes de respect de la vie privée, il y a eu dans le passé quelques soucis. Chez Ring, Amazon a été poursuivi parce que des employés avaient eu accès à des images confidentielles. Ça a coûté environ 30 millions de dollars à la marque. Aujourd'hui, il semble que le problème soit réglé. Mais d'une manière générale, comment est ce que vous abordez la question de la confidentialité et de la sécurité des données de ces données là ?
Laurent Brisedoux : C'est très important pour nous. Harring et Amazon. Vous avez un produit avec un enregistrement numérique vidéo, que ce soit la sonnette ou la caméra avec stockage dans le cloud. Donc il va y avoir une transmission et donc on encrypte ça, nous, entre nos serveurs. Et nous avons aussi une fonction qui permet de crypter de bout à bout. Donc là, c'est le client qui décide de garder le contrôle complet de sa vidéo. Donc on ne peut rien faire avec.
Monde Numérique : Vous ne pouvez rien faire. C'est à dire que personne chez Ring ne peut accéder et ne peut voir les images. C'est ça que vous voulez dire ?
Laurent Brisedoux : C'est le concept de l'inscription bout à bout. C'est seulement entre votre votre caméra et votre téléphone. Vous perdez le téléphone ou vous perdez la clé et il y a personne qui peut récupérer la vidéo. Donc ça, c'est pour. Tous nos produits, dont une option donc pour les gens qui veulent ce niveau de sécurité. Maintenant, pour moi, ce qui est pour la la vision par ordinateur, si c'est embarqué dans ce cas là, je peux le faire au niveau de la caméra, donc je vais pouvoir. Mes algorithmes, c'est pas moi. Mes algorithmes vont pouvoir observer la vidéo et faire une détection. S'il détecte par exemple qu'il y a un colis.
Monde Numérique : Je reviens la détection elle même. Vous parliez de mouvement tout à l'heure. Est ce que ça peut détecter, par exemple des attitudes menaçantes, un cambrioleur ou quelqu'un qui vient avec une volonté clairement hostile, violente, etc. Une arme, je ne sais pas.
Laurent Brisedoux : Du point de vue de la technologie, on n'est pas trop, on n'est pas encore là. Mais avec les fonctionnalités que vous avez aujourd'hui, vous pouvez déjà avoir un système qui va vous permettre de capturer la plupart de ces situations sans forcément les détecter. Par exemple, si vous avez un jardin devant chez vous et vous dites à votre appareil bon, je voudrais avoir une zone de mouvement qui est ici. Donc, si dans mon jardin devant chez moi, mon entrée et d'être notifié quand il y a une personne et que vous êtes en vacances et que la porte est censée être être fermée, si vous recevez une notification, c'est que vous avez quelqu'un qui n'était pas forcément attendu de rentrer devant chez vous. Donc ça va quand même vous aider à détecter les situations qui sont pas normales. Mais on n'a pas encore, on n'a pas encore assez d'intelligence. Il faut aussi des gros ordinateurs pour ça, qui vont déterminer l'intention ou le certain niveau de de danger.
Monde Numérique : Et le futur c'est quoi? C'est d'aller vers ce type de détection encore plus précise?
Laurent Brisedoux : Tout à fait. Si vous regardez ce qui se passe, surtout récemment avec l'intelligence artificielle générative, on a des des réseaux de neurones qui sont de plus en plus gros, de plus en plus intelligents, qui permettent de détecter des des scénarios de plus en plus complexes.
Monde Numérique : Ça fait peur à beaucoup de gens tout ça. Il y a l'idée qu'on va vers de plus en plus une société de surveillance et d'auto surveillance. Comment est ce que vous arrivez à concilier des fonctions de plus en plus sophistiquées, utiles avec le respect de la vie privée et les inquiétudes que ça peut susciter ?
Laurent Brisedoux : C'est une thématique qui est de plus en plus dans les discussions. Les régulateurs s'y intéressent beaucoup et nous, on veut faire partie de de cette discussion parce qu'on sait les produits, c'est nos produits qui sont utilisés aussi. Nous, le plus important est ce que je vous ai dit plus tôt, c'est qu'on est transparent sur ce qu'on fait, comme on le fait, ce qui permet à nos à nos clients d'utiliser leurs produits d'une manière. Normal et mettre des outils à leur disposition qui permet de contrôler. Que ce soit les zones des zones privées, que ce soit l'enregistrement de l'audio ou qui comprenne comment leurs produits doivent être utilisés. Donc on essaie de leur apprendre aussi et à leur faire savoir qu'il y a certaines fonctions qui sont assez puissantes, qu'ils doivent utiliser d'une certaine manière qu'ils doit utiliser chez eux. Et voilà!
Monde Numérique : Merci beaucoup. Laurent Brisedoux, Directeur Recherche et Développement Computer Vision chez Ring.