10 Avr 2018 |
innovation d'ailleurs |
Les systèmes logiciels, le multimédia et la cybersécurité
Technologie de reconnaissance de la parole


L’image d’en-tête provient de Pixabay, source. Domaine public.
La technologie de reconnaissance de la parole et les interfaces utilisateur vocales (VUI —Voice User Interface) sont devenues plus performantes. Leur taux d’erreur est maintenant seulement d’environ 5,5 % [1]. C’est à peu près le même taux que chez les humains parce que, selon les situations, nous manquons un à deux mots sur 20 mots entendus. Pour la plupart d’entre nous, ce n’est pas un problème, cependant, imaginez à quel point cela devient difficile pour un ordinateur!
Les premières percées en matière de reconnaissance de la parole ont porté principalement sur la création des sons de voyelles et l’interprétation de phonèmes. Un phonème est un son ou un groupe de sons différents qui aident à distinguer les mots les uns des autres. Un exemple est le phonème /k/, qui se trouve dans des mots comme carte, kit, quille, sketch [2]. Bien que le phonème /k/ puisse sembler le même, il y a des différences.
Le premier système de reconnaissance de la parole, appelé « Audrey », a été créé par Bell Laboratories en 1952. Le système ne pouvait reconnaître que des chiffres, avec une précision de 90 %, prononcés par une seule personne, son créateur. Dans les années 1970, Carnegie Mellon inventait le système de compréhension de la parole « Harpy », capable de reconnaître plus de 1000 mots et quelques phrases. Il pouvait également reconnaître différentes prononciations du même mot. En 1986, IBM Tangora a été conçu avec un modèle de Markov caché pour la reconnaissance de la parole et la prédiction des phonèmes, ce qui a mené aux innovations d’aujourd’hui. Jusque dans les années 1990, même les systèmes les plus performants étaient basés sur la reconnaissance de formes, les ondes sonores étant converties en un ensemble de chiffres et enregistrées dans des ordinateurs. Le système comparait alors les ondes sonores avec un son identique qui était enregistré dans l’appareil. Pour que le système puisse reconnaître les sons, l’orateur devrait parler très clairement, lentement et dans un environnement sans bruit de fond [3]. Ce n’est qu’en 1997 que le premier système de reconnaissance de la parole continue » au monde a été en mesure de comprendre 100 mots par minute; il était surtout utilisé par les médecins.
En 2008, l’application de recherche Google Voice pour iPhone a pu être lancée, grâce à la toute dernière technologie en matière de calcul de partage de données dans la puissante infonuagique, combinée à l’évolution et à la précision des algorithmes d’apprentissage automatique.
Siri, l’interface utilisateur vocale d’Apple, a été le premier agent virtuel à pénétrer le marché de la reconnaissance vocale. Depuis, ces interfaces ont atteint une masse critique avec Alexa d’Amazon, Cortana de Microsoft, Google Assistant de Google et Siri d’Apple. Ces entreprises ont également développé des haut-parleurs intelligents pour intégrer l’assistant intelligent dans nos foyers. Ils peuvent être activés avec la voix et certains mots précis. Le marché des assistants virtuels, et la reconnaissance vocale qu’ils nécessitent, devrait dépasser les 3 milliards de dollars d’ici 2020 [3].
Les machines ont commencé à comprendre la parole avec des phonèmes et ont graduellement évolué vers des mots individuels, des groupes de mots et, finalement, des phrases complètes. Elles sont maintenant capables de comprendre la parole avec une précision qui se rapproche des humains. Elles sont présentes dans des millions de foyers grâce à des haut-parleurs intelligents et peuvent être commandées par la voix, pouvant même converser dans le cadre d’un grand éventail de demandes.

Marie-Anne Valiquette
Marie-Anne Valiquette a obtenu un baccalauréat en génie mécanique à l’École de technologie supérieure (ÉTS) de Montréal. Elle habite à Silicon Valley en Californie où elle étudie l’intelligence artificielle grâce à des plateformes en ligne comme Udacity et deeplearning.ai.
Programme : Génie mécanique
