ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
Les robots apprendront le langage comme les enfants - Par : Hanen Hattab,

Les robots apprendront le langage comme les enfants


Hanen Hattab
Hanen Hattab est doctorante en sémiologie à l’UQAM. Ses recherches portent sur les pratiques d’art et de design subversifs et contre culturels comme le vandalisme artistique, le sabotage et les détournements culturels.

Apprentissage du langage comme les enfants

L’image d’en-tête a été achetée sur Istock.com et est protégée par des droits d’auteur.

Si votre assistant personnel intelligent ne comprend pas ce que vous lui demandez de faire, c’est parce qu’il n’a pas appris à parler comme les humains. C’est ce que révèle une nouvelle technologie qui optimisera l’apprentissage et l’usage du langage naturel chez les robots. Des chercheurs du Computer Science and Artificial Intelligence Laboratory (CSAIL) du Massachusetts Institute of Technology (MIT) ont créé un système qui permet aux robots d’apprendre le langage comme les enfants. C’est une innovation qui vise en outre à optimiser la communication verbale entre les robots et les humains.

Les analyseurs syntaxiques et sémantiques

Le concept est inspiré des plus récentes théories d’apprentissage du langage chez les humains. Dans les années 1990, le psychologue suisse Jean Piaget a avancé une première explication sur l’acquisition du langage. Il s’agit de la théorie cognitive interactionniste qui stipule que les enfants apprennent à parler en interagissant avec les individus et le monde.

En informatique la reconnaissance du langage naturel est assurée par les analyseurs syntaxiques et sémantiques. Or ces derniers ne prennent pas en considération le fait que l’usage de la langue est inséparable de son environnement matériel et de son contexte social. Comment fonctionnent ces analyseurs?

Ces systèmes sont conçus par les humains pour décortiquer et comprendre le langage naturel. Ils peuvent reconnaître les unités langagières préalablement annotées afin de saisir les significations des mots et la structure d’une phrase. Grâce à ces capacités, ils sont utilisés dans les recherches sur le Web, les requêtes dans les bases de données en langage naturel et les systèmes de reconnaissance vocale, tels que Alexa et Siri. Cette vidéo explique le principe d’annotation dans l’analyseur sémantique.

Étant donnée la multiplicité des pratiques orales et écrites du langage naturel, les annotations des analyseurs syntaxiques et sémantiques sont des tâches très complexes. De plus ces programmes sont parfois incapables de comprendre des phrases ambiguës ou formulées suivant des structures indéchiffrables. Sur ce point, Andrei Barbu, coauteur de la recherche, note que les gens communiquent souvent en utilisant des phrases décousues et des tournures personnelles.

Une innovation basée sur l’apprentissage à partir des vidéos

La technologie conçue par l’équipe permettra aux machines d’apprendre le langage naturel comme les enfants. Cette méthode optimisera la compréhension du langage, quelle que soit sa formulation, et ce, en prenant en considération le contexte d’énonciation.  Pour ce faire, les chercheurs ont utilisé une approche qui réduit la formation linguistique des analyseurs et inclut l’apprentissage visuel. Ils ont de fait inventé le premier analyseur qui apprend le langage en observant des vidéos sous-titrées montrant des personnes dans des situations réelles. À cet effet, ils ont doté la machine d’un système de vision artificiel formé à la reconnaissance des objets et des humains en action. Les vidéos servent à résoudre les cas où le robot détecte une ambiguïté dans une phrase. Ainsi lorsque l’analyseur n’est pas sûr, par exemple du sens d’une action ou d’un objet dans une phrase, il peut se référer à la vidéo pour le comprendre. Cela améliore sa capacité à saisir les subtilités de l’usage du langage au quotidien.

Pour que le système puisse déchiffrer les données visuelles, les chercheurs lui ont préparé une base de données comportant 400 vidéos. Celles-ci montrent des personnes effectuant plusieurs types d’actions, notamment se diriger vers un objet, le saisir et le poser. Une plate-forme Web d’externalisation ouverte a par la suite fourni 1 200 légendes pour ces vidéos dont 840 ont été utilisés à des fins de formation et de réglage, et 360, pour les tests.

L’algorithme de vision par ordinateur examine chaque image vidéo pour suivre l’évolution des objets et des personnes dans le temps afin de saisir le rapport entre les actions en cours et la description de la légende. Au cours de la formation, les chercheurs ont demandé à l’analyseur de déterminer si une phrase décrivait avec précision une vidéo donnée. L’exposition du système à des situations qui se ressemblent permet d’affiner petit à petit son acquisition des mots et des phrases. À partir de la formation, la machine a acquis sa propre grammaire syntaxique et sémantique. En rencontrant une nouvelle phrase, l’analyseur n’a plus besoin de vidéos; il a recours à son propre bagage grammatical et lexical pour en deviner la structure et le sens.

Dans le futur, l’équipe veut explorer l’aspect sensori-cognitif de l’acquisition du langage chez les enfants. En fait, étant donné que les petits apprennent en interagissant avec leur environnement, les chercheurs veulent concevoir un système qui a recours à la perception pour apprendre le langage naturel.

Cette étude s’intitule « Grounding language acquisition by training semantic parsers using captioned videos ». Elle a été coécrite par Candace Ross, Andrei Barbu et Yevgeni Berzak. Elle a été présentée lors de la semaine de la Empirical Methods in Natural Language Processing conference.

Hanen Hattab

Profil de l'auteur(e)

Hanen Hattab est doctorante en sémiologie à l’UQAM. Ses recherches portent sur les pratiques d’art et de design subversifs et contre culturels comme le vandalisme artistique, le sabotage et les détournements culturels.

Profil de l'auteur(e)