Aussi impressionnant que soit le maître d’échecs Deep Blue, il n'a jamais semblé si dépassé qu’aujourd’hui. Et Skynet (l’intelligence artificielle de Terminator) n'a jamais semblé si proche. Instruit avec seulement les mêmes données qu’un joueur humain et aucune connaissance préalable du monde réel, l’algorithme Deep Q-Network (DQN) utilise l’apprentissage par consolidation pour maîtriser de nouveaux jeux et, dans certains cas, développer de nouvelles stratégies.

Équipé des images brutes, de l'ensemble des actions disponibles et des scores, l'agent DQN a été testé sur 49 jeux pour Atari 2600. La sélection incluait des classiques comme Pong, Space Invaders ou le casse-briques, entre autres. Les performances de DQN ont dépassé 75 % du niveau d'un testeur de jeux professionnel sur plus de la moitié des jeux. Dans 43 des cas, elles ont surpassé tout algorithme linéaire existant pour apprendre ce jeu.

L’aptitude de l'algorithme DQN à recycler sa propre expérience (experience replay) est sa caractéristique la plus remarquable. Elle peut être comparée à la façon dont les humains apprennent durant les périodes de repos, comme le sommeil. Avec cette fonction de « rumination de l’expérience », l’algorithme DQN passe en revue les parties enregistrées pendant la phase d’apprentissage. Il a été facile de démontrer à quel point cette fonction est essentielle à la réussite de DQN : quand elle est désactivée, la performance de l'algorithme s’effondre.

Selon ses créateurs londoniens de Google Deepmind, cet algorithme d'apprentissage automatique à partir d'une page blanche, sans définitions ni règles ou modèles préalables, pourrait servir en climatologie, en physique, en médecine, dans la recherche génomique et bien d’autres domaines. DQN pourrait jeter un éclairage nouveau sur la façon dont les êtres humains apprennent.
Combien de temps restera-t-il ensuite avant que les machines comprennent qu’elles n’ont plus besoin de l’homme ?