ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
L’importance de la victoire d’AlphaGo contre le champion du monde - Par : Marie-Anne Valiquette,

L’importance de la victoire d’AlphaGo contre le champion du monde


Marie-Anne Valiquette
Marie-Anne Valiquette Profil de l'auteur(e)
Marie-Anne Valiquette a obtenu un baccalauréat en génie mécanique à l’École de technologie supérieure (ÉTS) de Montréal. Elle habite à Silicon Valley en Californie où elle étudie l’intelligence artificielle grâce à des plateformes en ligne comme Udacity et deeplearning.ai.
Programme : Génie mécanique 

Alphago

L’image d’entête est de Peter Kurdulija : licence CC, source.

Les règles de l’ancien jeu chinois Go sont simples : deux joueurs se relaient pour placer des pierres noires ou blanches sur un damier d’environ 50 x 50 cm, essayant de capturer les pierres de l’adversaire ou d’entourer un espace vide pour marquer des points. Ce jeu est considéré comme l’un des plus difficiles pour l’intelligence artificielle (IA) en raison de son espace de recherche considérable, des positions sur le damier et des coups possibles. En mars 2016, pour la première fois dans l’histoire, un joueur professionnel de Go, Lee Sedol, a été vaincu par un agent informatique appelé AlphaGo, créé par l’équipe DeepMind de Google.

AlphaGo a besoin de connaissances sur l’arbre de jeu pour jouer efficacement, ce qui signifie qu’étant donné une position particulière sur le plateau, il doit analyser les différents mouvements légaux qu’il peut effectuer pour gagner. En d’autres termes, si l’agent de jeu peut efficacement passer par l’arbre de jeu, alors il peut « décider » quel mouvement est optimal pour gagner la partie. La figure 1 ci-dessous est un exemple d’un arbre de jeu pour les 2 premiers jeux au tic-tac-toe.

AlphaGo

Figure 1 : arbre de jeu tic-tac-toe – les deux premiers jeux

À chaque étape du jeu, un joueur peut choisir entre plusieurs coups possibles, soit environ 250, et un jeu typique peut être complété en environ 150 coups. Le nombre de parties possibles où tous les coups sont légaux a été estimé à environ 10170 [1]. Alors, qu’est-ce qui rend Go si difficile pour l’IA ? Le nombre de configurations possibles sur le damier Go est énorme ; il dépasse le nombre d’atomes dans l’univers, qui est d’environ ~ 1080 [2]. Par conséquent, il est impossible pour l’agent d’analyser tous les jeux envisageables dans des délais raisonnables.

DeepMind de Google : le programme innovant AlphaGo maîtrise le jeu de Go.

L’équipe DeepMind a créé un nouvel algorithme de recherche en combinant une arborescence avancée appelée recherche arborescente Monte-Carlo (MCTS) avec deux réseaux neuronaux profonds. MCTS est un algorithme de recherche heuristique qui aide l’agent de jeu pendant le processus de décision. Cette approche se concentre uniquement sur les voies les plus prometteuses pour remporter une victoire. Autrement dit, l’agent n’a pas à parcourir chaque branche de l’arborescence de recherche. En ce qui concerne les réseaux neuronaux, ils utilisent les configurations sur le damier Go comme entrées et les traitent selon un nombre de couches réseau variables. L’un des réseaux de neurones, appelé réseau de décision, choisit le prochain coup à jouer, tandis que le deuxième réseau de neurones, appelé réseau de valeur, évalue les positions sur le damier pour prédire le vainqueur du jeu [1].

Plus précisément, l’équipe DeepMind entre dans AlphaGo un grand nombre de jeux d’amateurs expérimentés pour permettre à l’agent de mieux comprendre la façon dont les humains jouent le jeu. En outre, l’agent a joué contre différentes versions de ses propres jeux une multitude de fois. Chaque fois, il a appris de ses erreurs et s’est ainsi amélioré jusqu’à devenir plus performants. Ce processus est appelé l’apprentissage par renforcement.

AlphaGo

Figure 2 : Logo officiel de Google DeepMind

L’équipe DeepMind a publié un article expliquant cette approche originale avec plus de détails techniques.

En conclusion, la défaite de 1-4 de Lee Sedol contre AlphaGo, en mars 2016, a été vue par plus de 200 millions de personnes dans le monde entier. Les experts ont convenu que l’événement marquait un point culminant dans le développement de l’intelligence artificielle puisque cet exploit s’est produit une décennie avant son temps.

 

Marie-Anne Valiquette

Profil de l'auteur(e)

Marie-Anne Valiquette a obtenu un baccalauréat en génie mécanique à l’École de technologie supérieure (ÉTS) de Montréal. Elle habite à Silicon Valley en Californie où elle étudie l’intelligence artificielle grâce à des plateformes en ligne comme Udacity et deeplearning.ai.

Programme : Génie mécanique 

Profil de l'auteur(e)


Domaines d'expertise :

Intelligence artificielle 

commentaires

    Laisser un commentaire

    Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *