Créer une intelligence artificielle: AlphaZero de DeepMind

11 mai 1997, une journée spéciale pour l'intelligence artificielle. C'est ce jour-là qu'un programme informatique nommé Deep Blue a pu vaincre un champion du monde d'échecs en titre dans des conditions de tournoi.

Depuis, beaucoup de choses ont changé pour l'IA, dans le bon sens. Les dernières années ont été marquées par d’énormes progrès dans la recherche sur l’IA. Les machines deviennent de plus en plus intelligentes et, surtout, grâce à toutes ces recherches, nous commençons à mieux comprendre ce qu'est réellement l'intelligence humaine. Seule une compréhension concrète de l'intelligence permet de construire des machines intelligentes.

DeepMind a été à l'avant-garde de la révolution de l'IA.

DeepMind

DeepMind Technologies est une société britannique d'intelligence artificielle. En 2014, ils ont été achetés par Google pour leur expertise de pointe en matière d'intelligence artificielle. Depuis leurs débuts, ils ont pris les devants les plus ambitieux du monde en matière de résolution de l’IA.

Leur dernière création est aussi la plus impressionnante: AlphaZero

AlphaZero est un système d’intelligence artificielle qui a appris, à partir de rien, à maîtriser les jeux d’échecs, de shogi (échecs japonais) et de Go. Pour prouver l’excellence d’AlphaZero, il a été confronté à un champion du monde à chaque match. AlphaZero est sorti victorieux.

Jeux et intelligence

Dans le but de construire des machines intelligentes, les chercheurs ont d'abord été mis au défi de déterminer ce qu'est réellement l'intelligence. Ce n’est pas une question si simple à laquelle répondre!

À quoi pensez-vous lorsque quelqu'un vous demande de définir l'intelligence? On pourrait imaginer quelqu'un qui, à leur avis, est intelligent. Ils savent des choses que d’autres ne connaissent pas. Mais même plus que cela, ils sont capables d'utiliser ces connaissances sous la forme d'une sorte de compétence pour atteindre un objectif.

L'objectif est généralement difficile à atteindre. Cela devrait nécessiter des connaissances spéciales, des compétences ou une compréhension plus profonde: l'intelligence.

La capacité de jouer et de gagner une partie est une forme d’intelligence. Les jeux ont des règles et des objectifs. Tous les joueurs suivent les mêmes règles et tentent de faire la même chose: gagner la partie. Pour gagner, vous devez savoir comment jouer au jeu et comment utiliser ces connaissances de manière à vaincre votre adversaire.

Cette exigence de connaissances hautement spécialisées et avancées pour gagner est précisément la raison pour laquelle les jeux de société ont longtemps été utilisés comme banc d'essai pour les systèmes d'intelligence artificielle. Si nous voulons que notre système puisse gagner un jeu d’échecs non seulement contre un amateur, mais aussi contre le meilleur du monde, un grand maître, alors ce système en saura beaucoup sur les échecs! Il doit regarder beaucoup d'avancées, comprendre les positions du tableau, les avantages de chaque joueur et avoir une compréhension et une intuition plus profondes du jeu que son adversaire. Il faut être intelligent.

Kasparov vs Deep Blue (à gauche) et Sedol vs AlphaGo (à droite)Echecs et Go

Les échecs ont été le principal jeu d’étude de l’intelligence artificielle jusqu’à peu après que Deep Blue ait vaincu Gary Kasparov. Les moteurs d’échecs, des programmes informatiques conçus pour être vraiment bons aux échecs, sont devenus populaires quelques années plus tard et se retrouvent maintenant dans pratiquement tous les jeux d’échecs sur ordinateur et sur téléphone que vous pouvez trouver! Ainsi, alors que les systèmes d'intelligence artificielle font toujours référence au jeu d'échecs pour des raisons de minutie, les chercheurs ont commencé à créer des systèmes qui peuvent gagner à des jeux plus difficiles: Go.

Go est un autre jeu de stratégie dans lequel l’objectif est d’entourer plus de territoire que l’adversaire. Cela semble simple, mais on peut soutenir que la profondeur de la pensée est bien plus grande que celle des échecs. Juste pour faire une simple comparaison et voir la différence de complexité, les échecs se jouent sur un tableau 8x8 = 64 cases tandis que Go se joue sur une grille 19x19 avec 361 intersections (points sur lesquels vous pouvez jouer)! Le nombre de coups possibles dans Go est beaucoup plus élevé que celui des échecs.

Cette énorme complexité est la raison pour laquelle les chercheurs ont choisi de se lancer dans le jeu «Aller de l'avant». Si un système d'IA peut être construit pour vaincre un champion du monde dans un jeu aussi complexe que Go, il doit alors disposer d'une certaine forme d'intelligence. À tout le moins, cela peut nous donner des indices pour savoir d'où peuvent provenir le raisonnement et l'intuition requis par l'intelligence.

AlphaZero: une machine intelligente

Auparavant, les systèmes d’intelligence artificielle étaient conçus pour un jeu spécifique. Vous ne pouvez donc pas utiliser le même système d’IA que celui que vous avez créé pour les échecs pour le jeu de Go. Mais AlphaZero n'est pas un truc! AlphaZero est un système d’intelligence artificielle générique qui peut, en théorie, apprendre à jouer et à gagner à un niveau professionnel dans plusieurs jeux. Jusqu'à présent, il a fait ses preuves dans les jeux d'échecs, de shogi et de Go, tous utilisant le même algorithme.

Représentation d'AlphaZero AI, avec la permission de DeepMind

La découverte la plus excitante d’AlphaZero est son incroyable apprentissage en self-play. Vous voyez, pour pratiquer les jeux d’échecs, de shogi et de Go, AlphaZero ne jouait pas contre des adversaires humains. Il a appris toutes ses compétences en jouant contre lui-même, sans aucune connaissance, mais les règles de base du jeu.

Pour qu'AlphaZero apprenne chaque jeu, un réseau de neurones jouera des millions de jeux contre lui-même. Puisqu'il commence sans savoir ce qu'est un bon jeu et une bonne stratégie, il faudra passer par une phase d'essais et d'erreurs pour commencer, en jouant de manière assez aléatoire. Mais au fur et à mesure que le jeu avance, le processus d'apprentissage par renforcement pousse le système à jouer plus de mouvements «positifs» et à éviter les mouvements «négatifs».

L'apprentissage par renforcement de l'IA repose sur un système de récompense. L’intelligence artificielle recevra une sorte de récompense positive pour sa victoire et une négative pour une défaite. Au fil du temps, le système apprendra à maximiser son score.

Observant les jeux joués par Alpha Zero une fois entièrement entraînés, les champions du monde de tous les jeux ont découvert qu'AlphaZero avait appris les stratégies classiques des jeux généralement joués par les grands maîtres. Par exemple, AlphaZero a fréquemment joué aux stratégies d’ouverture d’échecs les plus courantes et a démontré des compétences chevronnées dans la défense de son roi comme un pro.

Mais la particularité d’Alpha Zero n’était pas de savoir ce que les autres champions savaient, c’est d’apprendre ce qu’ils ne savaient pas. Par son jeu personnel, Alpha Zero n’était pas limité à jouer contre ce à quoi un humain pouvait penser. Il avait la possibilité de jouer tous les mouvements possibles, ouvrant son apprentissage à des jeux non conventionnels et à des stratégies jamais vues auparavant.

«Certaines de ses actions, telles que déplacer le roi au centre du tableau, vont à l’encontre de la théorie du shogi et - d’un point de vue humain - semblent placer AlphaZero dans une position périlleuse. Mais incroyablement, il reste en contrôle du conseil. Son style de jeu unique nous montre qu'il existe de nouvelles possibilités pour le jeu. “
- Yoshiharu Habu, professionnel de 9 dan, seul joueur de l'histoire à détenir les sept titres majeurs du shogi

Les experts considèrent cette compétence comme créative, ce qui nécessiterait un niveau de connaissances et de compétences surhumain: l'intelligence. Pour créer des systèmes intelligents capables de résoudre un large éventail de problèmes du monde réel, ils doivent être conçus de manière à bien comprendre les règles, tout en restant suffisamment flexibles pour permettre leur propre exploration. Ils doivent également être capables de maîtriser de nombreuses choses et ne pas être enfermés dans une seule partie.

AlphaZero en montre quelques signes précoces. Cela démontre qu'un seul algorithme peut apprendre à comprendre les connaissances actuelles et ensuite aller au-delà. C’est un pas dans la bonne direction pour créer de l’intelligence.

Si vous souhaitez en savoir plus sur AlphaZero, vous pouvez lire le blog de DeepMind ou son article de recherche publié dans Science Journal.

Aime apprendre?

Suivez-moi sur Twitter où je poste tous les articles sur la dernière et la plus importante intelligence artificielle, technologie et science!