ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
Améliorer la reconnaissance faciale dans les environnements surveillés - Par : Christophe Pagano, Robert Sabourin, Éric Granger, Gian Luca Marcialis, Fabio Roli,

Améliorer la reconnaissance faciale dans les environnements surveillés


Fabio Roli
Fabio Roli est professeur en génie informatique et directeur du Laboratoire de reconnaissance de formes et d’applications (PRA) à l’Università di Cagliari, Italie. Il se spécialise en conception de systèmes de reconnaissances de formes.

RÉSUMÉ:

Cet article décrit un nouveau système de classificateurs multiples proposé pour la reconnaissance faciale de vidéo à vidéo, en environnements changeants, comme dans les applications de réidentification de personnes. Le système présenté est conçu pour surmonter les différentes limites de ces environnements complexes de reconnaissance.Il y a environ deux mois, nous avons publié dans la plateforme d’actualité scientifique Substance de l’ÉTS un article qui présentait la recherche en vidéosurveillance au laboratoire LIVIA de l’ÉTS. Ce nouvel article se concentre sur la conception de systèmes robustes de classification de visages pour la reconnaissance de vidéo à vidéo, en environnements changeants, répondant aux exigences des applications de réidentification ou de recherche et de récupération de personnes. Dans ce type d’applications, un opérateur pourrait isoler une trajectoire faciale (ensemble des visages d’une même personne captée sur des images consécutives) filmée par un réseau de caméras et enrôler son modèle de visage dans la base de données. Par la suite, lors des opérations de surveillance, les visages captés en direct ou sur des vidéos archivées seraient comparés aux modèles de visage des individus que l’on désire surveiller.

Facteurs affectant la performance des systèmes

Considérons des modèles de visages globaux estimés par l’apprentissage d’un réseau de neurones ou d’un classificateur statistique, à partir de captures d’images extraites de vidéos de surveillance à l’aide d’un détecteur de visage. Dans ce contexte, la performance des systèmes de pointe (commerciaux ou universitaires) est habituellement limitée par la difficulté à extraire des images de visage de haute qualité des séquences obtenues en environnements semi-restreints (p. ex. une voie d’inspection, un portail ou l’entrée d’un poste de contrôle), et non restreints (p. ex. un endroit bondé où tous circulent librement, comme dans certaines parties d’un aéroport ou au casino). Ceux-ci sont fortement affectés par des variations dans les conditions d’observation, telles que la pose du sujet, la taille des captures, les expressions faciales, l’éclairage de la scène, le flou de mouvement, la dissimulation momentanée d’une partie du visage par un autre objet, ou même le vieillissement du sujet.

De façon plus précise, pour un classificateur de visage donné, les diverses conditions sous lesquelles un visage peut être capté par des caméras de vidéosurveillance sont caractéristiques de différents concepts, c’est-à-dire de différentes distributions de données propres à l’environnement dans lequel les images ont été captées (voir exemple à la figure no 1).

Figure no 1 : exemple de variations observées dans l’apparence faciale de deux personnes (tiré de la base de données Face in Action [1])

Figure no 1 : Exemple de variations observées dans l’apparence faciale de deux personnes (tiré de la base de données Faces in Action [1]).

Ces concepts contribuent à la diversité du modèle de visage d’une personne, et les distributions de classes sous-jacentes sont composées de l’information relative à toutes les conditions de capture possibles (p. ex. les angles de pose et les expressions faciales pouvant être observées durant les opérations de surveillance). Toutefois, en pratique, les visages captés par vidéo sont comparés à des modèles de visage construits a priori, en utilisant un nombre limité de captures de référence collectées lors de l’enrôlement. Des données de départ incomplètes et des distributions changeantes entraînent une divergence croissante entre le modèle de visage et la distribution de classe sous-jacente d’une personne. Pour les applications de réidentification de personnes, de nouvelles vidéos de référence d’un individu visé peuvent être obtenues lors d’opérations de surveillance ou durant un processus de réenrôlement.

En environnement semi-restreint ou non restreint, les captures correspondantes peuvent être échantillonnées sous plusieurs concepts (p. ex. différents angles de pose), mais la présence de l’ensemble de tous les concepts possibles dans une seule séquence de référence ne peut être garantie. Pour cette raison, un système de reconnaissance faciale vidéo à vidéo doit être en mesure d’assimiler de nouvelles trajectoires de référence avec le temps (au fur et à mesure qu’elles sont obtenues) afin d’ajouter de nouveaux concepts aux modèles de visage des personnes visées et permettre la reconnaissance faciale future sous de nouvelles conditions d’observation. Adapter les modèles de visage en assimilant de nouveaux concepts, sans corrompre les données recueillies précédemment, est une fonction importante de la reconnaissance faciale dans les environnements réels de vidéosurveillance qui sont changeants.

Nouveau système adaptatif de classificateurs multiples

Dans le cadre de ce projet de recherche réalisé au laboratoire Livia, un nouveau système adaptatif de classificateurs multiples est proposé pour la reconnaissance faciale vidéo à vidéo en environnements changeants, comme dans les applications de réidentification de personnes. Ce système modulaire est composé d’un ensemble de classificateurs pour chacune des personnes, permettant l’adaptation du modèle de visage des personnes visées suivant l’acquisition de nouvelles vidéos de référence, par apprentissage incrémentiel ou par génération d’ensembles (figure no 2). Lorsqu’une nouvelle trajectoire vidéo est ajoutée par l’opérateur, un mécanisme de détection du changement est utilisé pour trouver un compromis entre la plasticité et la stabilité.

Figure 2: A human centric system face video-to-video face recognition.

Figure no 2 : Un système centré sur la reconnaissance de vidéo à vidéo de visages humains.

Si les nouvelles données comportent un changement soudain par rapport aux données précédentes (caractéristique d’un nouveau concept, voir figure n3), un nouveau classificateur est entraîné par la nouvelle entrée et combiné à l’ensemble existant. Dans le cas contraire, les classificateurs entraînés précédemment sont mis à jour de façon incrémentielle.

Figure 2: Example of gradual and abrupt changes in facial

Figure no 3 : Exemples de changements graduels et soudains dans un visage.

Lors des opérations de surveillance, le visage de chacune des personnes est suivi et ces images sont regroupées au fil du temps, ce qui permet d’obtenir de bonnes prédictions, de façon constante, et ainsi une solide reconnaissance spatio-temporelle. Ce cadre d’application a été implanté de façon particulière afin de le valider. Ce système était constitué d’un ensemble de classificateurs probabilistes à deux classes Fuzzy-ARTMAP [2] pour chacune des personnes enrôlées où chacun des ensembles était généré et évoluait en utilisant une stratégie d’apprentissage incrémentielle basée sur l’optimisation par essaims particulaires (PSO) dynamiques [3] et sur la méthode de détection Hellinger Drift [4] pour détecter les changements de concepts. La précision et les ressources nécessaires à ce système ont été évaluées en utilisant des trajectoires faciales extraites de séquences de vidéosurveillance de la banque de données Faces In Action [1]. Cette banque de données comprend plus de 200 personnes, captées sur plusieurs mois, qui présentent des changements graduels (p. ex., expression, vieillissement) et soudains (p. ex., angle de pose, éclairage).

Résultats

Les résultats de simulations montrent que le système proposé est en mesure de maintenir un haut niveau de performance lorsque des vidéos de références significativement différentes sont connues pour une personne. Sa performance de classification est supérieure à celle d’un système probabiliste kNN [5] adapté à la reconnaissance de vidéo à vidéo, de même qu’à celle d’un système  « open set TCM-kNN » [6], tout en étant considérablement moins complexe. L’architecture extensible emploie ainsi un mécanisme de détection du changement pour atténuer les effets de la corruption de données tout en en limitant la complexité algorithmique.

Article de recherche

Pour obtenir plus d’information sur la conception de systèmes robustes de classification de visage pour la reconnaissance de vidéo à vidéo dans des environnements de surveillance changeants, nous vous invitons à lire l’article de recherche suivant :

PAGANO, C., E. GRANGER, R. SABOURIN, G. L. MARCIALIS et F. ROLI. « Adaptive ensembles for face recognition in changing video surveillance environments ». Information Sciences, 2014, vol. 286. p. 75-101, article accessible sur Espace ÉTS.

Laboratoire LIVIA

logo livia frPour obtenir plus d’information sur le laboratoire d’imagerie, de vision et d’intelligence artificielle (LIVIA), cliquez sur le lien suivant. LIVIA est à la recherche d’étudiants pour de nombreux projets.

Christophe Pagano

Profil de l'auteur(e)

Programme : Génie de la production automatisée 

Laboratoires de recherche : LIVIA – Laboratoire d'imagerie, de vision et d'intelligence artificielle 

Profil de l'auteur(e)

Robert Sabourin

Profil de l'auteur(e)

Programme : Génie de la production automatisée 

Chaire de recherche : Chaire de recherche ÉTS sur les systèmes de surveillance adaptatifs et évolutifs dans les environnements dynamiques 

Laboratoires de recherche : LIVIA – Laboratoire d'imagerie, de vision et d'intelligence artificielle 

Profil de l'auteur(e)

Éric Granger

Profil de l'auteur(e)

Programme : Génie de la production automatisée 

Laboratoires de recherche : LIVIA – Laboratoire d'imagerie, de vision et d'intelligence artificielle 

Profil de l'auteur(e)

Gian Luca Marcialis

Profil de l'auteur(e)

Profil de l'auteur(e)

Fabio Roli

Profil de l'auteur(e)

Fabio Roli est professeur en génie informatique et directeur du Laboratoire de reconnaissance de formes et d’applications (PRA) à l’Università di Cagliari, Italie. Il se spécialise en conception de systèmes de reconnaissances de formes.

Profil de l'auteur(e)