ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
Synthétiser des visages pour améliorer la reconnaissance faciale - Par : Fania Mokhayeri,

Synthétiser des visages pour améliorer la reconnaissance faciale


Fania Mokhayeri
Fania Mokhayeri Profil de l'auteur(e)
Fania Mokhayeri est étudiante au doctorat au LIVIA de l’ÉTS. Ses domaines de recherche comprennent la vision artificielle, l’apprentissage machine, la reconnaissance faciale et les applications de surveillance vidéo.

Caméra de surveillance dans un aéroport

L’image d’en-tête a été achetée sur Istock.com et est protégée par des droits d’auteur.

RÉSUMÉ:

La reconnaissance faciale représente un défi en vidéosurveillance en raison de conditions de capture non contrôlées (variations de pose, expression, éclairage, flou, échelle, etc.) et du nombre limité d’images de référence. Une solution efficace pour améliorer la robustesse de ces systèmes consiste à augmenter l’ensemble de références en générant des visages synthétiques à partir d’une image originale. Cet article présente un nouvel algorithme de synthèse faciale générant un ensemble compact de visages synthétiques dans des conditions de capture réelles. Mots clés : Reconnaissance faciale, vidéosurveillance, synthèse faciale.

Reconnaissance faciale en vidéosurveillance

 La reconnaissance faciale (RF) en vidéosurveillance suscite un grand intérêt en raison des images captées discrètement par caméras de surveillance ainsi que du contrôle flexible, du rapport élevé performances/coûts et des possibilités d’analyses en temps réel qu’elle offre. Ces dernières années, les organisations de sécurité publique ont déployé plusieurs caméras de surveillance vidéo. Malgré les progrès récents réalisés en vision artificielle et en apprentissage machine, la conception d’un système robuste de RF en vidéosurveillance dans des environnements non restreints représente toujours un défi. Ce fait est dû en partie au nombre limité d’images de référence par personne cible. De plus, les images de référence peuvent différer considérablement des images captées par vidéos.

Synthèse faciale par domaine spécifique

 L’objectif de cette recherche est de pallier le nombre d’images de référence limité et les variations d’apparence du visage en générant plusieurs images de visage synthétiques pour chacune des images de référence afin d’améliorer la représentativité des modèles de visage. Cet article présente une approche qui exploite les informations discriminantes de l’ensemble générique pour synthétiser des visages. Le nouvel algorithme, nommé synthèse faciale par domaine spécifique ou DSFS (domain specific face synthesis), cartographie les variations représentatives de l’ensemble générique des images de référence d’origine. De cette manière, un ensemble compact de visages synthétiques est généré, représentant des images de référence et des séquences vidéo captées dans des conditions courantes.

Comme le montre la figure 1, la technique DSFS comporte deux étapes principales : (1) la caractérisation des informations sur les conditions de capture du domaine d’opération (DO) ; (2) la génération d’images de visage synthétiques selon les informations obtenues à la première étape. Avant la mise en service de la caméra (pendant le calibrage), un ensemble générique est produit à partir de la vidéo captée dans le DO. Un sous-ensemble compact et représentatif d’images de visage est sélectionné en regroupant cet ensemble générique à des spécimens de conditions de capture définis par la pose, l’éclairage, le flou. Le modèle 3D de chaque image de référence est reconstruit à l’aide d’un modèle 3D modifiable et rendu à l’aide de représentations de pose. Enfin, les couches dépendant du niveau de luminosité sont extraites et projetées sur les images de référence obtenues avec la même pose. De cette manière, les variations spécifiques à un domaine sont transférées efficacement sur les images de référence.

Images créées par l’algorithme DSFS

Figure 1 Représentation de l’algorithme DSFS proposé pour enrichir l’ensemble de référence.

Le principal avantage de l’approche proposée est la production d’un ensemble compact représentant avec précision le visage de l’image de référence d’origine avec des variations intra-classes pertinentes dans la pose, l’éclairage, le flou de mouvement et autres, correspondant aux conditions de capture.

Reconnaissance faciale d’images-à-vidéo à l’aide de la synthèse faciale

Dans une application particulière de RF images-à-vidéo (voir figure 2), des images de visage originales et synthétiques servent à concevoir un dictionnaire structurel doté de puissantes capacités de représentation des variations pour la classification basée sur la représentation fragmentée ou SRC (Sparse Representation-based Classification). Les blocs de dictionnaire représentent les variations intra-classes calculées à partir des visages de référence-mêmes ou des visages synthétiques. Combiner la méthode SRC à l’algorithme DSFS proposé améliore la robustesse de la SRC pour la RF sur vidéo en intégrant des variations de domaine lorsqu’un seul échantillon existe pour une personne.

Reconnaissance faciale images-à-vidéo

Figure 2 Schéma fonctionnel du système proposé de RF images-à-vidéo en SRC à invariance de domaine

Les principales étapes du système proposé de RF images-à-vidéo à invariance de domaine, avec dictionnaire enrichi, se résument comme suit :

  • Étape 1. Génération d’images faciales synthétiques : À cette étape, un ensemble d’images de visage synthétiques est généré pour chaque image de l’ensemble de référence à l’aide de la technique DSFS.
  • Étape 2. Enrichissement du dictionnaire : Les images synthétiques générées par la technique DSFS sont ajoutées au dictionnaire de référence afin de produire un dictionnaire inter-domaines. Le concept de dictionnaire présenté dans ce travail permet à la SRC d’effectuer la reconnaissance à partir d’une seule image fixe de référence et d’en assurer la robustesse malgré les changements de domaine visuel.
  • Étape 3. Classification: À partir d’un échantillon de capture, la SRC codifie d’abord l’échantillon comme sous forme de combinaison linéaire fragmentée de tous les échantillons de référence d’apprentissage et de synthèse, puis classe l’échantillon en déterminant la classe qui comporte le moins d’erreurs de représentation.
  • Étape 4. Validation: Dans les systèmes de RF, en pratique, il importe de détecter, puis de rejeter les images captées non pertinentes. Un critère d’indice de concentration minimale est utilisé à cette fin.

Résultats

 La figure 3 montre des exemples d’images synthétiques générées dans différentes conditions de pose, d’éclairage et de contraste à l’aide de la technique DSFS sur l’ensemble de données Chokepoint, où des modèles de visage de Bâle servent à générer un modèle 3D.

Images générées par la technique DSFS à partir de la banque Chokepoint

Figure 3 Exemples d’images de synthèse générées dans différentes conditions de capture à l’aide de la technique DSFS à partir de l’ensemble de données Chokepoint

Pour la preuve de concept, un dictionnaire enrichi, structuré en blocs et basé sur le DSFS, est élaboré et la classification des visages est effectuée au moyen de la SRC. Nos expériences sur l’ensemble de données Chokepoint montrent qu’augmenter la référence discrétionnaire de systèmes de RF images-à-vidéo au moyen de l’approche proposée de synthèse faciale par DSFS fournit un niveau de précision supérieur à celui des approches de pointe, moyennant une augmentation modérée de la complexité computationnelle.

Information supplémentaire

 Pour plus d’informations sur la conception de reconnaissance faciale images-à-vidéo robuste dans des aires de surveillance changeantes à partir de la synthèse faciale, consulter l’article de recherche suivant :

Mokhayeri, Fania, Eric Granger et Guillaume-Alexandre Bilodeau. “Domain-Specific Face Synthesis for Video Face Recognition From a Single Sample Per Person.” IEEE Transactions on Information Forensics and Security 14, no. 3 (2019): 757-772.

Fania Mokhayeri

Profil de l'auteur(e)

Fania Mokhayeri est étudiante au doctorat au LIVIA de l’ÉTS. Ses domaines de recherche comprennent la vision artificielle, l’apprentissage machine, la reconnaissance faciale et les applications de surveillance vidéo.

Programme : Génie des technologies de l'information 

Laboratoires de recherche : LIVIA – Laboratoire d'imagerie, de vision et d'intelligence artificielle 

Profil de l'auteur(e)