22 Jan 2018 |
innovation d'ailleurs |
Les systèmes intelligents et autonomes
AlphaGo Zero — Augmenter le savoir sans intervention humaine


L’image d’entête provient du site Hackernoon : sans restriction d’usage connue, source.
L’article précédent, « L’importance de la victoire historique d’AlphaGo contre le champion du monde », explique la raison pour laquelle l’agent de jeu AlphaGo de DeepMind est une victoire si importante. Le 18 octobre 2017, l’équipe DeepMind de Google a dévoilé la dernière version du programme AlphaGo Zero. Ce programme amélioré est un joueur nettement meilleur que la version qui a battu le champion du monde en mars 2016, mais, plus important encore, il est entièrement autodidacte.
L’équipe DeepMind a alimenté AlphaGo, l’agent de jeu original, avec des données provenant de centaines de milliers de jeux joués par des experts humains. Quant à AlphaGo Zero, également développé par DeepMind, il a commencé avec rien d’autre qu’un damier vide et les règles de jeu. Pendant trois jours, il a appris « simplement » en jouant des millions de parties contre lui-même, améliorant ses performances après chaque jeu. Dans les matchs contre la version 2015, célèbre pour avoir battu le grand maître sud-coréen Lee Sedol, AlphaGo Zero a gagné 100 à 0 l’année suivante [1].
Selon DeepMind, en trois heures, le programme jouait comme un débutant humain. Il avait essayé une stratégie gourmande: capturer le plus de pierres possible. En 19 heures, il avait appris les bases de stratégies plus avancées de Go et, en 70 heures, il jouait à des niveaux surhumains.
Le programme fonctionnait selon l’apprentissage par renforcement, où il était son propre professeur, en commençant avec un réseau de neurones qui ne savait rien du jeu de Go. Ensuite, jouant contre lui-même, le réseau de neurones s’est ajusté et mis à jour pour prédire les coups. Dans chaque itération, le réseau neural mis à jour se recombinait avec l’algorithme de recherche pour créer une version améliorée de lui-même. Ainsi la performance s’améliorait chaque fois [2]. Comme mentionné, l’agent a commencé comme un joueur amateur et, à mesure qu’il jouait contre lui-même, il apprenait les coups stratégiques utilisés par un joueur expert. Après trois jours, le programme avait découvert de nouveaux coups — des stratégies non conventionnelles que les joueurs d’aujourd’hui étudient à l’heure actuelle. Il a redécouvert les stratégies de Go développées par des joueurs humains depuis plus de 1000 ans. Cette découverte peut s’avérer être un moyen d’apprentissage plus puissant que d’autres approches qui dépendent de l’expertise humaine ou de la recherche de tracés dans de grands ensembles de données. Elle montre que le développement d’algorithmes ne dépend pas d’une énorme quantité de données. De plus, en n’utilisant pas l’expertise humaine, l’algorithme n’est pas limité par les contraintes de la connaissance humaine.
Pour l’essentiel, les logiciels d’intelligence artificielle (IA) sur le marché aujourd’hui utilisent des données réelles habituellement générées par les humains. Une grande quantité de données peut être coûteuse, indisponible ou biaisée.
La mission de DeepMind est de maximiser l’impact positif et révolutionnaire de l’IA sur la société. Le développement d’AlphaGo Zero constitue une étape importante vers cet objectif. AlphaGo Zero n’était pas seulement conçu pour comprendre et jouer le jeu de Go, mais aussi pour servir dans différents domaines comme la formulation de médicaments pour guérir les maladies, le pliage des protéines et la conception de nouveaux matériaux [1].

Marie-Anne Valiquette
Marie-Anne Valiquette a obtenu un baccalauréat en génie mécanique à l’École de technologie supérieure (ÉTS) de Montréal. Elle habite à Silicon Valley en Californie où elle étudie l’intelligence artificielle grâce à des plateformes en ligne comme Udacity et deeplearning.ai.
Programme : Génie mécanique
Domaines d'expertise :
