Computer Programm Beats European Go Champion

Im Jahr 1997 schlug der Schachcomputer Deep Blue den Schachweltmeister Gary Kasparov in einem Spiel mit sechs Partien. Dieses Ergebnis wurde als großer Schlag für den menschlichen Stolz empfunden – Schach wurde als Symbol für den einzigartigen menschlichen Intellekt gesehen. Die Menschen leckten ihre Wunden und suchten ein anderes Spiel, um das Schach als Symbol der Intelligenz zu ersetzen. Es wählte das asiatische Spiel Go.

Go wird auf einem 19 x 19 Brett zwischen zwei Spielern (Schwarz und Weiß) gespielt. Einmal platziert, kann ein Stück (ein "Stein" genannt) nicht mehr bewegt werden. Das Ziel des Spiels ist es, mehr Territorium als der Gegner zu gewinnen, indem man seine Steine ​​umgibt. Die Regeln sind einfach, aber das Spiel ist teuflisch komplex, viel mehr als Schach (Gobet, de Voogt, & Retschitzki, 2004): Es gibt 10 172 Zahl mögliche Positionen (eine gefolgt von 172 Nullen), viel mehr als die Zahl von Atome im bekannten Universum. Im Vergleich dazu beträgt die Anzahl der Schachplätze "nur" 10 43 .

Im Vergleich zu anderen Brettspielen wie Schach und Dame ist Go strategischer und weniger taktisch. Das heißt, langfristige Pläne dominieren kurzfristige Kombinationen. Dies liegt an der großen Größe des Go-Boards und an der Tatsache, dass sich die Steine ​​nicht einmal auf dem Board bewegen. Eine Konsequenz ist, dass das Spiel Aspekte der Kognition anspricht, in denen Menschen stark sind (Mustererkennung, Intuition, Planung) und wo Computer traditionell gekämpft haben. Im Gegensatz dazu passt das Spiel nicht zu den traditionellen Stärken von Computern, vor allem nicht zu der Fähigkeit, eine große Anzahl von Staaten systematisch mit roher Gewalt zu durchsuchen.

Während Computer in Spielen wie Schach, Othello und Dame schon lange stärker waren als Menschen, waren sie in Go eher schlecht, da sie nicht in der Lage waren, über das Niveau eines guten Laien zu kommen. Ein großer Durchbruch gelang 2006, als Computerprogramme ihre Stärke mit einer einfachen, aber überraschenden Technik, der sogenannten Monte-Carlo-Baumsuche, drastisch erhöhten (Lee et al., 2009). Anstatt systematisch den Baum der möglichen Züge zu durchsuchen, erzeugt diese Methode Spiele, indem sie für die beiden Spieler zufällig Züge auswählt. Die Intuition ist, dass, wenn eine Bewegung in der aktuellen Position besser ist als die Alternativen, diese Bewegung im Durchschnitt zu besseren Ergebnissen führen sollte, wenn viele solcher Spiele gespielt werden, obwohl jede einzelne Bewegung zufällig ausgewählt wird. Bei differenzierteren Variationen dieser Technik ist die Wahl der Züge durch vorherige Erfahrung beeinflusst.

Durchbruch mit AlphaGo

Ende Januar hat die Zeitschrift Nature einen weiteren Durchbruch gemeldet (Silver et al., 2016). Das von Google DeepMind entwickelte Programm AphaGo zerstörte nicht nur die besten anderen Go-Programme (99,8% der Gewinne), sondern auch Fan Hui, einen professionellen Go-Spieler, der die Europameisterschaft dreimal gewonnen hatte. Das Ergebnis war brutal klar: fünf bis null.

AlphaGo verwendet eine Kombination von drei Techniken der künstlichen Intelligenz: Monte-Carlo-Baumsuche, die wir gerade besprochen haben, Deep Learning und Verstärkungslernen. Deep Learning besteht aus der Anpassung der Gewichte eines künstlichen neuronalen Netzwerks unter Verwendung von kürzlich entwickelten Techniken (LeCun, Bengio & Hinton, 2015). AlphaGo verwendet zwei Netzwerke: das erste schlägt eine Bewegung in einer bestimmten Position vor und das zweite bewertet die Position als Ganzes. Das Programm lernt zunächst durch das Scannen einer großen Anzahl von Meisterspielen (30 Millionen Positionen). Dann spielt es eine große Anzahl von Spielen gegen sich selbst und stimmt die Gewichte seiner Netzwerke mit einer Technik namens Verstärkungslernen ab. Diese Technik verwendet das Feedback, das durch das Ergebnis von Spielen erhalten wird, um weiter zu lernen. Das "Reinforcement Learning" wurde bereits erfolgreich eingesetzt, um in mehreren Brettspielen, darunter Backgammon (Tesauro, 1995), Spitzenprogramme zu produzieren. Das gesamte Lernen ist rechenintensiv und erfordert leistungsstarke Computer.

Wenn ein Gegner einen Gegner spielt, nutzt AlphaGo seine beiden Netzwerke, um Positionen zu bewerten und die Auswahl der Züge so zu beeinflussen, dass er Züge auswählt, die in der Vergangenheit nützlich waren. Das Programm plant etwas, mit Monte Carlo Baumsuche. Das Schöne an diesem Ansatz ist, dass AlphaGo nur das Wissen nutzt, das er selbst gelernt hat. Dies steht zum Beispiel im Gegensatz zu Deep Blue, das viel Wissen verwendet, das von seinen Programmierern handcodiert wurde (Campbell, Hoane & Hsu, 2002).

Lektionen für menschliche Expertise

Was sagt uns AlphaGo über menschliche Expertise? Was bedeutet das für die Welt von Go? Ein erstes wichtiges Ergebnis ist, dass AlphaGo die Wichtigkeit von Mustererkennung und Intuition in Brettspielen und vermutlich in anderen Bereichen der Expertise bestätigt. Da AlphaGo nur die Fähigkeit zur Mustererkennung nutzt und keine Suche durchführt, schlägt es immer noch die meisten Computerprogramme. Dies ist nicht verwunderlich, da Go ein strategisches Spiel ist, aber die Art und Weise, wie AlphaGo diesen Aspekt der menschlichen Expertise so gut erfassen kann, ist beeindruckend. Die Bedeutung der Mustererkennung bei menschlichen Experten wurde von mehreren Forschern (z. B. Adriaan De Groot, Herbert A. Simon und Hubert Dreyfus) lange betont, auch wenn es wichtige Unterschiede in den Einzelheiten ihrer Theorien gab (für Details siehe Gobet & Chassy, ​​2009).

Im Gegensatz dazu erzählt dieses Projekt nicht viel über menschliche Planung und Suche. Monte-Carlo-Baumsuche ist nicht sehr menschenähnlich: selbst Experten erzeugen einfach nicht Tausende von (Pseudo-) Zufallsspielen, sammeln dabei Statistiken auf dem Weg. Sie führen eine subtilere und selektivere Suche durch, bei der die Mustererkennung mit der Look-Ahead-Suche verknüpft wird (Gobet, 1997). Während Alpha-Go sein Wissen benutzt, um selektiv zu suchen, tut es so viel weniger als Menschen.

Computer haben die Art verändert, wie Schach auf der obersten Ebene gespielt wird. Sie haben neue konzeptionelle Möglichkeiten eröffnet und im Expertenspiel schockierende Grenzen aufgezeigt. Als Konsequenz aus Computerspielen, Computernutzung und computergestützten Datenbanken hat sich die Spielqualität in den letzten zwei Jahrzehnten deutlich verbessert. Eröffnungsvarianten, die man für unspielbar hielt, werden jetzt verwendet, und andere, die für befriedigend gehalten wurden, wurden durch Computeranalysen widerlegt. Eine weitere, diesmal unwillkommene Folge ist das Auftauchen von Computerbetrug. Es wird interessant sein zu sehen, ob ähnliche Entwicklungen mit Go auftreten werden.

Es ist sehr unwahrscheinlich, dass die universelle Akzeptanz der künstlichen Intelligenz dem menschlichen Intellekt überlegen sein wird. Die Menschen werden neue Spiele und Aktivitäten entwickeln, um die menschliche Vorherrschaft über Computer zu bewahren. Dies wird zu noch besseren Computertechniken führen. Dieses Wettrüsten zwischen menschlicher Intelligenz und Computerintelligenz wird zu einem besseren Verständnis der menschlichen und künstlichen Intelligenz führen, zum Nutzen beider.

Die nächste Herausforderung

Während die Leistung von AlphaGo bemerkenswert ist, muss man sich daran erinnern, dass es den Weltmeister (noch) nicht geschlagen hat. Obwohl der Europameister Fan Hui ist "nur" ein 2-Dan-Profi, und damit deutlich schwächer als Top-Level-Go-Profi, die Rang 9 Dan sind. Dies entspricht in etwa dem Unterschied zwischen einem Meister und einem Weltklasse-Großmeister. Mit anderen Worten, ein 9-Dan-Profi wird wahrscheinlich mehr als 95% der Zeit gegen einen 2-Dan-Profi gewinnen.

Also, was ist die wahre Stärke von AlphaGo? Wir werden es bald wissen, denn ein Match wurde zwischen AlphaGo und Lee Se-dol organisiert, einem 9-Dan südkoreanischen Profi, der als einer der besten Spieler der Welt gilt. Während das Team hinter AlphaGo optimistisch ist, dass es gewinnen wird, glauben Go-Meister, dass der menschliche Verstand sich durchsetzen wird. So auch Jonathan Schaeffer, ein Computerwissenschaftler, der zu einigen bahnbrechenden Computerspielen beigetragen hat: "Stellen Sie sich AlphaGo als Wunderkind vor. Plötzlich hat es gelernt, sehr gut zu spielen Go, sehr schnell. Aber es hat nicht viel Erfahrung. Was wir bei Schach und Dame gesehen haben, ist, dass Erfahrung viel zählt. "

Fernand Gobet und Morgan Ereku

Verweise

Campbell, M., Hoane, AJ & Hsu, FH (2002). Tiefes Blau. Künstliche Intelligenz, 134, 57-83.

Gobet, F. (1997). Eine Mustererkennungstheorie der Suche in der Problemlösung von Experten. Denken und Schließen, 3, 291-313.

Gobet, F. & Chassy, ​​P. (2009). Expertise und Intuition: Eine Geschichte von drei Theorien. Minds & Machines, 19, 151-180.

Gobet, F., de Voogt, AJ, und Retschitzki, J. (2004). Bewegt sich in Erinnerung. Hove, UK: Psychologie Presse.

LeCun, Y., Bengio, Y. & Hinton, G. (2015). Tiefes Lernen. Natur, 521, 436-444.

Lee, C.-S., Wang, M.-H., Chaslot, G., Hoock, J.-B., Rimmel, A., Teytaud, O., et al. (2009). Die Computer-Intelligenz von MoGo zeigte sich in Taiwans Computer-Go-Turnieren. IEEE-Transaktionen auf Computational Intelligence und AI in Games, 1, 73-89.

Silver, D., Huang, A., Maddison, CJ, Guez, A., Sifre, L., van den Driessche, G., et al. (2016). Das Spiel Go mit tiefen neuronalen Netzen und Baumsuche zu meistern. Natur, 529, 484-489.

Tesauro, G. (1995). Zeitunterschied lernen und TD-Gammon. Mitteilungen der ACM, 38, 58-68.