fil-educavox-color1

Vous vous souvenez sans doute de ce logiciel Alpha go qui a battu 4 parties à 1 Lee Sedol, maître mondial du jeu de go. C’était en mars 2016, c’était il y a très longtemps au rythme actuel des progrès de l’intelligence artificielle.

Alpha go vient de trouver son maître : il a été battu 100 parties à 0 ! Et son maître s’appelle Alpha go Zéro.

Il a été, lui aussi, conçu par Deepmind, filiale intelligence artificielle de Google. Et pourquoi « zéro » ?

Sans doute parce qu’il y en aura d’autres mais surtout parce que ce programme apprend à partir de rien ou presque rien c’est-à-dire à partir des seules règles du jeu et de la position des pions sur le plateau. Il est son propre éducateur. Il joue contre lui-même, aléatoirement d’abord, puis repère et fait siennes les stratégies les plus pertinentes…Cela valait bien un article paru le 18 octobre dans la revue scientifique « Nature ».

Mais qu’y a-t-il de nouveau ?

La différence essentielle avec son prédécesseur est que Alpha go Zéro n’a pas ingurgité les données de 100 000 parties des meilleurs joueurs de la planète pour en faire les « leçons » de son apprentissage.

Il a découvert le jeu tout seul et fait 4,9 millions de parties en trois jours pour s’entrainer et retrouver les séquences gagnantes élaborées par les humains en 3000 ans puis découvrir d’autres coups aussi pertinents et jamais conçus auparavant. Il a été son propre professeur à partir d’une base de données minimale.

Pour le dire dans le langage   de l’intelligence artificielle, la part d’apprentissage automatisé « apprentissage par renforcement » ou « reinforcing learning » est devenue beaucoup plus importante que la part « d’apprentissage supervisé » ou supervised learning » en anglais. Pour comprendre la distinction entre les deux types d’apprentissage, « l’apprentissage supervisé » est utilisé pour classifier des données futures à partir de la classification de données existantes dans des classes prédéfinies (classes et données sont fournies à la machine), «  l’apprentissage non supervisé »est utilisé pour comprendre et explorer des données sans connaissances préalables.

Mais ce n’est pas tout.

Les performances d’Alpha go Zéro ne se mesurent pas uniquement à son efficacité. Il est aussi plus rapide et moins coûteux que son prédécesseur.

  • Il fonctionne avec un seul « réseau de neurones » au lieu de deux ;
  • Il n’a joué que 4,9 millions de parties pour battre la version précédente qui en avait fait 30 millions à l’entrainement ;
  • Il utilise une puissance de calcul bien moindre puisqu’il a besoin de 12 fois moins de processeurs que son ancêtre.

Pour tempérer l’euphorie qui a gagné les ingénieurs de Deepmind (compréhensible et sensible dans les déclarations de l’un de leurs chefs de file Demis Hassabis), le programme qu’ils ont élaboré en un temps record est confiné à une tâche bien particulière qui se prête parfaitement à ce type de développement.

Pour autant, il est évident que les investissements consentis par Google dans le domaine de l’intelligence artificielle ne sont pas destinés à obtenir la maîtrise suprême du jeu de go et la créativité de ses chercheurs ne va pas se borner à cette élégante résolution d’un problème difficile.

Ils envisagent d’appliquer le bon en avant qu’ils ont fait faire à l’intelligence artificielle à bien d’autres domaines : économies d’énergie, recherche de matériaux nouveaux, repliement des protéines…

Jacques Puyou

Dernière modification le jeudi, 19 octobre 2017
Puyou Jacques

Professeur agrégé de mathématiques - Secrétaire national de l’An@é