09 Sep 2016 |
article de recherche |
Les systèmes intelligents et autonomes
Reconnaissance rapide de manuscrits arabes



Introduction
La reconnaissance de mots arabes est un champ de recherche actif [1, 2, 3]. La plupart des systèmes de reconnaissance utilisent un lexique, construit à partir d’un ensemble de mots admis, afin de limiter les résultats obtenus à des mots qui sont valides. Lorsqu’on teste toutes les hypothèses des mots du lexique, le taux de reconnaissance s’en trouve amélioré, mais le temps de traitement augmente. Des méthodes dynamiques de réduction du lexique, basées sur des images d’entrée, ont donc été créées pour contrer ce problème. Toutefois, le processus de réduction augmente le nombre d’erreurs parce qu’il peut entraîner le rejet de l’étiquette qui devrait être associée à une image d’entrée. La difficulté rencontrée avec les méthodes de réduction du lexique est donc de trouver un bon compromis entre la réduction de la taille du lexique et le maintien d’un haut degré de précision sur les hypothèses de mots obtenus en sortie, tout en minimisant le temps de traitement. Le descripteur proposé est en mesure d’accélérer la reconnaissance de mots de documents arabes, anciens et nouveaux.
Contrairement à l’écriture latine, l’alphabet arabe comprend 28 lettres au lieu de 26 et cette langue s’écrit de droite à gauche (Figure no 1). La forme des lettres dépend de leur positon à l’intérieur du mot; elle sera habituellement différente si la lettre est au début, au milieu ou à la fin du mot. Six lettres (« ʾ », « D », « D », « R », « Z », et « W ») ne peuvent être attachées que si elles apparaissent à la fin du mot. Lorsqu’elles sont au début ou au milieu d’un mot, on doit insérer un espace après celles-ci et le mot est divisé en sous-mots. Plusieurs lettres partagent la même graphie de base et ne se distinguent que par l’ajout de signes diacritiques prenant la forme d’un, de deux ou de trois points apparaissant au-dessus ou au-dessous de la forme de base. Les particularités de l’écriture arabe sont illustrées à la figure no 1.

Figure no 1 Translittération des lettres de l’alphabet arabe selon la norme ISO 233

Figure no 2 Un mot arabe composé de sous-mots (lignes pleines) et de signes diacritiques (lignes pointillées)
Le descripteur de mots arabes
Dans cet article, nous proposons de représenter la forme de mots arabes en utilisant le descripteur de mots arabes (AWD). L’information sur la forme, sur le nombre de sous-mots et sur les signes diacritiques est incorporée dans un seul vecteur, sans analyse d’agencement de mots. Ce vecteur est construit en deux étapes. Tout d’abord, un descripteur de structure (SD) est calculé pour chacune des composantes connectées (CC) de l’image d’un mot. Puis, le descripteur de mots arabes est généré en classifiant et en normalisant les SD pour tous les CC.
Descripteur de structure
Le descripteur de structure (SD) encode la forme de chacune des CC en utilisant le modèle de « sac-de-mots » (BOW) [4]. Pour chacune des CC données (Figure no 3a), la structure locale autour de chacun des pixels au premier plan de l’image de base est représentée par un descripteur de pixels (Figure no 3b). Les descripteurs de pixels sont assignés au mot visuel qui leur ressemble le plus, selon un guide de codes (Figure no 3c). Le SD est ensuite représenté sous forme d’histogramme illustrant le nombre d’occurrences de chacun des mots visuels (Figure no 3d). La figure no 3e présente la structure encodée par chacun des mots visuels sur la forme originale. Les pixels des formes sont colorés selon leur type.

Figure no 3 Formation du descripteur de structure
Formation du descripteur de mots arabes
Le descripteur de mots arabes (AWD) ajoute l’information relative au nombre de sous-mots et aux signes diacritiques. Les sous-mots et les signes diacritiques correspondent généralement aux composantes connectées de l’image (CC). En premier lieu, le descripteur de structure (SD) de chacune des CC est calculé, puis les SD sont classés en ordre décroissant selon le nombre de pixels des CC. Le classement obtenu devrait placer en premier les sous-mots les plus grands et mettre les signes diacritiques à la fin. Enfin, les descripteurs ordonnés sont concaténés dans le descripteur de mots arabes (voir la figure no 4). Le descripteur de mots arabes est bien adapté à la méthode de réduction du lexique parce qu’il permet une association efficace des formes par comparaison vectorielle.

Figure no 4 Construction du descripteur de mots arabes (AWD)
Méthode de réduction de lexique
La méthode de réduction du lexique se base sur l’indexation de formes. Une base de données de référence est composée de descripteurs de mots arabes associés à des images de mots et leur étiquette correspondante. L’ensemble des étiquettes forme le lexique utilisé. Plus il y a un grand nombre d’images pour chacun des mots du lexique, plus la modélisation des variations de l’écriture manuscrite peut être améliorée. Lors de la phase de réduction du lexique, le AWD d’une image requête est comparé aux AWD de la base de données de référence. Les étiquettes des N entrées les plus similaires dans la base de données deviennent le lexique réduit (N est un paramètre fourni au système) à partir duquel la reconnaissance de mots est effectuée (Figure no 5).

Figure no 5 Vue d’ensemble de la méthode de réduction du lexique
Résultats expérimentaux
Les effets de la réduction du lexique ont été évalués pour deux méthodes de reconnaissance de mots (Figure no 6). La première est une méthode de reconnaissance analytique, basée sur le modèle de Markov caché (HMM) et testée avec des documents arabes modernes. Le taux de reconnaissance et le temps de calcul diminuent de façon linéaire sur une échelle logarithmique avec la diminution de N (Figure no 6a). La deuxième est une méthode holistique de reconnaissance, basée sur l’association de formes et testée sur des documents anciens. Le temps de calcul diminue linéairement avec N alors que le taux de reconnaissance ne diminue que légèrement (Figure no 6 b).

Figure no 6a

Figure no 6b
Conclusion
Lors de ce travail, nous avons proposé un descripteur de mots arabes pour réduire la taille du lexique. Ce descripteur encode la forme de chacune des composantes connectées (CC) d’une image en construisant un descripteur de structure (SD) basé sur un modèle de sac-de-mots. Le classement et la normalisation des SD donnent une importance particulière aux symboles caractéristiques utilisés en arabe, tels que les sous-mots et les signes diacritiques. Les expériences effectuées sur les bases de données de mots arabes démontrent que l’AWD est efficace pour accélérer la reconnaissance de mots.
Article de recherche
Pour obtenir plus d’informations sur ce sujet, nous vous invitons à lire l’article de recherche suivant :
Chherawala, Youssouf et Cheriet, Mohamed. 2014. « Arabic word descriptor for handwritten word indexing and lexicon reduction ». Pattern Recognition, vol. 47, nº 10. p. 3477-3486.
Auteurs
Youssouf Chherawala est ingénieur de logiciel chez Apple. Il a obtenu une maîtrise et un doctorat en génie électrique à l’École de technologie supérieure (ÉTS) de Montréal en 2007 (maîtrise) et 2013 (doctorat). Il a réalisé une recherche postdoctorale au laboratoire de communications multimédias en téléprésence Synchromedia. Ces intérêts de recherche portent sur la reconnaissance de formes, l’analyse de la forme et de la reconnaissance de l’écriture manuscrite.
Mohamed Cheriet est professeur au département de génie de la production automatisée à l’École de technologie supérieure (ÉTS) de Montréal où il a été nommé professeur titulaire en 1998. Il a co-fondé le Laboratoire d’imagerie, de vision et d’intelligence artificielle (LIVIA) et en a été le directeur de 2000 à 2006. Il a également fondé le Consortium Synchromedia (Laboratoire de communications multimédias en téléprésence) et en est le directeur depuis 1998. Ses intérêts incluent les documents d’analyse d’images, les systèmes de reconnaissance des caractères (OCR), les modèles mathématiques pour le traitement d’images, les modèles de classification de modèles et d’algorithmes d’apprentissage ainsi que la perception de la vision par ordinateur.
[accordion title= »Références » close= »1″][1] L.M. Lorigo, V. Govindaraju
Offline Arabic handwriting recognition: a survey
IEEE Trans. Pattern Anal. Mach. Intell., 28 (2006), pp. 712–724
[2] R. Al-Hajj Mohamad, L. Likforman-Sulem, C. Mokbel
Combining slanted-frame classifiers for improved HMM-based Arabic handwriting recognition
IEEE Trans. Pattern Anal. Mach. Intell., 31 (2009), pp. 1165–1177
[3] A. Giménez, A. Juan, Embedded Bernoulli mixture HMMs for handwritten word recognition, in: Proceedings of the 10th International Conference on Document Analysis and Recognition (ICDAR ?09), 2009, pp. 896–900.
[4] J. Yang, Y.-G. Jiang, A. G. Hauptmann, C.-W. Ngo, Evaluating bag-of-visual-words representations in scene classification, in: Proceedings of the 9th international Workshop on Multimedia Information Retrieval, MIR ?07, ACM, New York, NY, USA, 2007, pp. 197–206.[/accordion]
[accordion title= »Références des images » close= »1″]Toutes les images proviennent des auteurs. La licence CC de Substance s’applique.[/accordion]

Youssouf Chherawala
Youssouf Chherawala est ingénieur de logiciel chez Apple. Il a obtenu une maîtrise et un doctorat en génie électrique, et un postdotorat laboratoire Synchromedia à l’ÉTS. Il est spécialisé en reconnaissance de l’écriture manuscrite.
Laboratoires de recherche : SYNCHROMÉDIA – Laboratoire de communications multimédias en téléprésence

Mohamed Cheriet
Mohamed Cheriet est professeur au Département de génie des systèmes de l’ÉTS et directeur de Synchromedia. Ses recherches portent sur l’éco-infonuagique, les systèmes d’acquisition de connaissances et d’intelligence artificielle.
Programme : Génie de la production automatisée
Chaire de recherche : Chaire de recherche du Canada sur la durabilité écologique d'Eco-Cloud
Laboratoires de recherche : SYNCHROMÉDIA – Laboratoire de communications multimédias en téléprésence CIRODD- Centre interdisciplinaire de recherche en opérationnalisation du développement durable
Laboratoires de recherche :
Domaines d'expertise :
Algorithmes d'apprentissage et méthodes de classification Reconnaissance de formes Interprétation de scènes 2D Traitement et analyse de documents multilingues Modèles de langages pour la reconnaissance et la recherche de documents Reconnaissance de caractères manuscrits Reconnaissance de l'écriture manuscrite Modèles variationnels pour la segmentation d'images Modèles à base d'EDPs pour le rehaussement et la restauration d'images Interfaces visuelles intelligentes pour le support de la recherche et du travail collaboratifs en téléprésence

MERCI POUR ESSAI