ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
Reconnaissance de visages pour la vidéosurveillance : quelle est la meilleure méthode? - Par : M. Ali Akber Dewan, Éric Granger, Fabio Roli, Robert Sabourin, Gian Luca Marcialis,

Reconnaissance de visages pour la vidéosurveillance : quelle est la meilleure méthode?


M. Ali Akber Dewan
M. Ali Akber Dewan Profil de l'auteur(e)
M. Ali Akber Dewan a été boursier postdoctoral à l’École de technologie supérieure de Montréal (ÉTS) de 2012 à 2014 au Laboratoire Livia. Il se spécialise en suivi de trajectoire et en reconnaissance des visages pour la vidéosurveillance.

Éric Granger
Éric Granger est professeur au Département de génie des systèmes de l’ÉTS. Ses recherches portent sur l’apprentissage machine, la reconnaissance de formes, la vision par ordinateur, et les systèmes adaptatifs et intelligents.

Fabio Roli
Fabio Roli est professeur en génie informatique et directeur du Laboratoire de reconnaissance de formes et d’applications (PRA) à l’Università di Cagliari, Italie. Il se spécialise en conception de systèmes de reconnaissances de formes.

Robert Sabourin
Robert Sabourin Profil de l'auteur(e)
Robert Sabourin est professeur au Département de génie de la production automatisée de l’ÉTS. Ses recherches portent sur la reconnaissance de forme et l’inspection, les réseaux de neurones artificiels et les algorithmes d’apprentissage.

Gian Luca Marcialis
Gian Luca Marcialis Profil de l'auteur(e)
Dr.Gian Luca Marcialis est actuellement assistant professeur à l'Université de Cagliari et membre du laboratoire PRA. Ses intérêts de recherche portent sur les domaines de la fusion de plusieurs classificateurs pour la reconnaissance des personnes par la biométrie.

Photo de Paul Sastrasinh Website, sans restriction d’usage, source.

Étant donné la demande actuelle pour les technologies de surveillance et de sécurité, de nombreux organismes de sécurité publique envisagent la possibilité d’utiliser des systèmes d’aide à la décision pour vidéosurveillance afin d’obtenir de meilleures analyses de situation. La reconnaissance de visages automatisée trouve plusieurs applications; elle est notamment de plus en plus utilisée pour alerter un opérateur humain de la présence immédiate de personnes d’intérêt (temps réel) ou de leur présence passée, archivée sur vidéo (analyse rétrospective).

Photo no 1: source [Img1]

Photo no 1: source [Img1]

En pratique, la reconnaissance de visages en vidéosurveillance (c) constitue un défi puisqu’elle requiert une réponse juste en environnements semi-restreints (une voie d’inspection, un portail ou l’entrée d’un poste de contrôle) et en environnements non restreints (p. ex. un endroit bondé où tous circulent librement comme à l’aéroport ou au casino). Au cours des dernières années, les logiciels de suivi sont devenus un outil important de la reconnaissance de visages.

Le suivi du visage en vidéosurveillance devrait être suffisamment polyvalent pour s’adapter aux changements de posture, d’expression et d’éclairage; il doit aussi interpréter les images lorsque le sujet est partiellement caché par d’autres objets dans l’environnement. Le suivi du visage par modélisation d’apparence adaptative (AAM) permet généralement de surmonter ces difficultés et d’améliorer l’estimation des conditions sous lesquelles le sujet cible se trouve. En effet, il crée et actualise un modèle interne du visage pour chacune des personnes en tenant compte des changements d’apparence qui surviennent.

Cet article présente une comparaison empirique de performance entre trois méthodes de suivi du visage à la fine pointe de la technologie, basées sur le modèle AAM :

  1. Tracking Learning Detection (TLD) [1]
  2. Incremental Visual Tracking (IVT) [2]
  3. Discriminative Sparse Coding based Tracking (DSCT) [3]

 

reconnaissance de visages

Figure no 1 : Représentation schématisée d’un suivi de trajectoire de visages par la modélisation d’apparence adaptative (AAM). Source [Img2]

Ces méthodes ont été comparées en gardant à l’esprit l’application de suivi du visage pour la vidéosurveillance. Les critères d’évaluation incluaient l’erreur de chevauchement, l’erreur de poursuite et la complexité dans le temps.  Des vidéos de personnes passant par des zones présentant des goulots d’étranglement ont été obtenues par vidéosurveillance en environnements non supervisés.

1. Tracking Learning Detection (TLD)

Méthode

Le modèle facial est constitué d’un ensemble de séquences photos de sujets cibles et de sujets non cibles observés jusqu’à ce jour. La structure principale comporte trois composantes :

  1. La composante de poursuite (Tracking) utilise un poursuiveur median-flow pour établir la correspondance du visage dans le cadre virtuel;
  2. La composante de détection (Detection) sélectionne la séquence la plus semblable au modèle du visage cible à l’aide d’un classificateur à trois couches en cascade.
  3. La composante d’apprentissage (Learning) sélectionne les séquences cibles et non cibles pour mettre à jour le modèle facial à l’aide de deux modules experts (p-expert et n-expert).

Forces

  • Cette méthode suit les visages de façon constante du moment que l’apparence du sujet ne change pas trop par rapport aux observations;
  • TLD reconnaît l’apparence de la cible en la comparant avec des images non cibles; il peut donc automatiquement retrouver la trace du sujet lorsque ce dernier réapparaît.

Faiblesses

  • Le modèle facial est moins adaptatif que les autres et son risque de dérive est grand lorsque l’environnement est bondé;
  • Il exécute des recherches exhaustives de visages, ce qui augmente son délai d’exécution;
  • Un échec de la poursuite peut survenir si un objet d’apparence semblable à la cible apparaît dans l’environnement.

2. Incremental Visual Tracking (IVT)

Méthode

  • Les modèles faciaux sont constitués de sous-espaces de faible dimension ;
  • Le calcul incrémental est exécuté à l’aide de la transformée séquentielle de Karhunen-Loève;
  • Un filtre particulaire affine les paramètres de mouvements pour la correspondance des visages
  • La distance de Mahalanobis et la distance euclidienne sont utilisées pour l’association des données menant à une correspondance.

Forces

  • La représentation du visage, basée sur l’espace propre (Eigenspace), est assez polyvalent pour s’adapter aux changements de postures et aux environnements bondés;
  • Le modèle facial est mis à jour par apprentissage en ligne incrémental et selon les changements qui surviennent dans l’environnement.

Faiblesses

  • Il est susceptible de dériver parce qu’il peut s’adapter graduellement aux sujets non ciblées durant la mise à jour;
  • Il ne possède pas de système pour détecter et corriger la dérive puisqu’il n’inclut aucune contrainte globale.
reconnaissance de visages

Photo no 2 : Suivis de visages effectués par IVT, TLD et DSCT pour certains cadres virtuels sélectionnés de l’étude. Source [Img2]

3. Discriminative Sparse Coding based Tracking (DSCT)

Méthode

  • Une programmation de type «sparse code» est utilisée pour la représentation du modèle facial;
  • Deux types de modèles d’observation sont utilisés pour le modèle facial :
    1. Un modèle statique estimé à partir de l’observation du premier cadre virtuel;
    2. Un modèle dynamique calculé en compilant les observations de plusieurs cadres virtuels parmi les plus récents;
  • Les parties du corps et du visage du candidat sont comparées avec le modèle d’observation adaptatif puis avec le modèle statique;

Forces

Il suit bien les visages du moment que l’apparence du visage change peu comparée au premier cadre virtuel.

Faiblesses

  • La poursuite échoue si l’apparence change de façon radicale par rapport aux observations du premier cadre virtuel;
  • Le modèle adaptatif échoue souvent et entraîne le mauvais fonctionnement du modèle statique;
  • Le vecteur généré de dimension élevée génère des coûts informatiques importants.

 

reconnaissance de visages

Figure 2 : Erreur de poursuite (TE) en fonction de l’erreur de chevauchement Pascal VOC (AOE), Source [Img2]

Résultats expérimentaux

Les résultats démontrent que :

  • La méthode IVT surclasse les autres par son habileté à suivre fidèlement les trajectoires des visages lorsqu’une partie du sujet n’est pas visible et sous diverses postures, échelles et éclairages;
  • La caractérisation de l’IVT montre qu’en utilisant un petit échantillonnage et un facteur d’oubli faible durant la mise à jour, on améliore la justesse du suivi des visages lorsque les conditions de capture sont changeantes;
  • Lorsque les changements surviennent graduellement, l’IVT a l’avantage d’évaluer la qualité du visage avant de mettre à jour les modèles faciaux;
  • La faible capacité de discrimination (TLD) et la complexité calculatoire (DSCT) sont les principales limites des deux autres méthodes.

Pour améliorer la performance de l’IVT :

  • Un procédé d’évaluation de la qualité peut être utilisé pour construire et valider un modèle facial fiable;
  • Certains paramètres (p. ex. la taille de l’échantillonnage et le facteur d’oubli) peuvent être optimisés de façon dynamique selon les conditions de capture;
  • L’information contextuelle peut être exploitée afin d’améliorer le suivi de trajectoire de multivisages.

Information supplémentaire

Pour obtenir plus d’information sur cette étude, nous vous invitons à lire l’article de recherche source (PDF) :

M. Ali Akber Dewan, E. Granger, F. Roli , R. Sabourin, and G. L. Marcialis (2014). A Comparison of Adaptive Appearance Methods for Tracking Faces in Video Surveillance. International Conference on Imaging for Crime Detection and Prevention (ICDP 2013) at Kingstone University London, United Kingdom.

logo_accPour plus d’informations sur le Laboratoire d’imagerie, de vision et d’intelligence artificielle (Livia), suivre ce lien. Livia est à la recherche d’étudiants pour plusieurs projets de recherche.

M. Ali Akber Dewan

Profil de l'auteur(e)

M. Ali Akber Dewan a été boursier postdoctoral à l’École de technologie supérieure de Montréal (ÉTS) de 2012 à 2014 au Laboratoire Livia. Il se spécialise en suivi de trajectoire et en reconnaissance des visages pour la vidéosurveillance.

Laboratoires de recherche : LIVIA – Laboratoire d'imagerie, de vision et d'intelligence artificielle 

Profil de l'auteur(e)

Éric Granger

Profil de l'auteur(e)

Éric Granger est professeur au Département de génie des systèmes de l’ÉTS. Ses recherches portent sur l’apprentissage machine, la reconnaissance de formes, la vision par ordinateur, et les systèmes adaptatifs et intelligents.

Programme : Génie de la production automatisée 

Laboratoires de recherche : LIVIA – Laboratoire d'imagerie, de vision et d'intelligence artificielle  LiNCS – Laboratoire en ingénierie cognitive et sémantique 

Profil de l'auteur(e)

Fabio Roli

Profil de l'auteur(e)

Fabio Roli est professeur en génie informatique et directeur du Laboratoire de reconnaissance de formes et d’applications (PRA) à l’Università di Cagliari, Italie. Il se spécialise en conception de systèmes de reconnaissances de formes.

Profil de l'auteur(e)

Robert Sabourin

Profil de l'auteur(e)

Robert Sabourin est professeur au Département de génie de la production automatisée de l’ÉTS. Ses recherches portent sur la reconnaissance de forme et l’inspection, les réseaux de neurones artificiels et les algorithmes d’apprentissage.

Programme : Génie de la production automatisée 

Chaire de recherche : Chaire de recherche ÉTS sur les systèmes de surveillance adaptatifs et évolutifs dans les environnements dynamiques 

Laboratoires de recherche : LIVIA – Laboratoire d'imagerie, de vision et d'intelligence artificielle 

Profil de l'auteur(e)

Gian Luca Marcialis

Profil de l'auteur(e)

Dr.Gian Luca Marcialis est actuellement assistant professeur à l'Université de Cagliari et membre du laboratoire PRA. Ses intérêts de recherche portent sur les domaines de la fusion de plusieurs classificateurs pour la reconnaissance des personnes par la biométrie.

Profil de l'auteur(e)