AlphaGo Null - AlphaGo Zero

AlphaGo Null ist eine Version von DeepMind ‚s Go - Software AlphaGo . Das Team von AlphaGo veröffentlichte am 19. Oktober 2017 einen Artikel in der Zeitschrift Nature , in dem AlphaGo Zero vorgestellt wird, eine Version, die ohne die Verwendung von Daten aus menschlichen Spielen erstellt wurde und stärker ist als jede frühere Version. Indem AlphaGo Zero Spiele gegen sich selbst spielte, übertraf AlphaGo Zero die Stärke von AlphaGo Lee in drei Tagen, indem es 100 Spiele zu 0 gewann, erreichte das Level von AlphaGo Master in 21 Tagen und übertraf alle alten Versionen in 40 Tagen.

Das Training von künstlicher Intelligenz (KI) ohne von menschlichen Experten abgeleitete Datensätze hat erhebliche Auswirkungen auf die Entwicklung von KI mit übermenschlichen Fähigkeiten, da Expertendaten "oft teuer, unzuverlässig oder einfach nicht verfügbar sind". Demis Hassabis , Mitbegründer und CEO von DeepMind, sagte, dass AlphaGo Zero so mächtig sei, weil es „nicht mehr durch die Grenzen des menschlichen Wissens eingeschränkt“ sei. Darüber hinaus schnitt AlphaGo Zero aufgrund seiner Integration der Monte-Carlo-Baumsuche besser ab als Standard-Deep-Learning-Modelle für Verstärkung (wie DQN-Implementierungen). David Silver , einer der ersten Autoren von DeepMinds Artikeln, die in Nature on AlphaGo veröffentlicht wurden, sagte, dass es möglich ist, verallgemeinerte KI-Algorithmen zu haben, indem die Notwendigkeit beseitigt wird, vom Menschen zu lernen.

Google entwickelte später AlphaZero , eine verallgemeinerte Version von AlphaGo Zero, die neben Go auch Schach und Shōgi spielen konnte . Im Dezember 2017 schlug AlphaZero die 3-Tage-Version von AlphaGo Zero, indem er 60 Spiele zu 40 gewann, und mit 8 Stunden Training übertraf es AlphaGo Lee auf einer Elo-Skala . AlphaZero besiegte auch ein Top-Schachprogramm ( Stockfish ) und ein Top-Shōgi-Programm ( Elmo ).

Ausbildung

Das neuronale Netzwerk von AlphaGo Zero wurde mit TensorFlow trainiert , mit 64 GPU-Workern und 19 CPU-Parameterservern. Für die Inferenz wurden nur vier TPUs verwendet. Das neuronale Netz wusste zunächst nichts über Go über die Regeln . Im Gegensatz zu früheren Versionen von AlphaGo nahm Zero nur die Steine ​​des Boards wahr, anstatt einige seltene, von Menschen programmierte Randfälle zu haben, um ungewöhnliche Go-Board-Positionen zu erkennen. Die KI beschäftigte sich mit Reinforcement Learning und spielte gegen sich selbst, bis sie ihre eigenen Züge antizipieren konnte und wie sich diese Züge auf das Ergebnis des Spiels auswirken würden. In den ersten drei Tagen spielte AlphaGo Zero in schneller Folge 4,9 Millionen Spiele gegen sich selbst. Es schien innerhalb weniger Tage die Fähigkeiten zu entwickeln, die erforderlich sind, um Spitzenmenschen zu besiegen, während das frühere AlphaGo monatelanges Training benötigte, um das gleiche Niveau zu erreichen.

Zum Vergleich trainierten die Forscher auch eine Version von AlphaGo Zero mit menschlichen Spielen, AlphaGo Master, und stellten fest, dass sie schneller lernte, aber auf lange Sicht tatsächlich schlechter abschnitt. DeepMind legte im April 2017 seine ersten Ergebnisse in einem Paper an Nature vor , das dann im Oktober 2017 veröffentlicht wurde.

Hardwarekosten

Die Hardwarekosten für ein einzelnes AlphaGo Zero-System im Jahr 2017, einschließlich der vier TPUs, wurden mit rund 25 Millionen US-Dollar angegeben.

Anwendungen

Die Algorithmen von AlphaGo dürften laut Hassabis den größten Nutzen für Bereiche haben, die eine intelligente Suche durch einen enormen Raum an Möglichkeiten erfordern, wie etwa die Proteinfaltung (siehe AlphaFold ) oder die genaue Simulation chemischer Reaktionen. Die Techniken von AlphaGo sind wahrscheinlich weniger nützlich in Bereichen, die schwer zu simulieren sind, wie zum Beispiel beim Erlernen des Autofahrens. DeepMind gab im Oktober 2017 bekannt, dass es bereits mit der aktiven Arbeit an dem Versuch begonnen habe, die AlphaGo Zero-Technologie für die Proteinfaltung zu verwenden, und kündigte an, bald neue Ergebnisse zu veröffentlichen.

Rezeption

AlphaGo Zero wurde weithin als bedeutender Fortschritt angesehen, selbst im Vergleich zu seinem bahnbrechenden Vorgänger AlphaGo. Oren Etzioni vom Allen Institute for Artificial Intelligence nannte AlphaGo Zero „ein sehr beeindruckendes technisches Ergebnis“ in Bezug auf „sowohl ihre Fähigkeit, dies zu tun – als auch ihre Fähigkeit, das System in 40 Tagen auf vier TPUs zu trainieren“. Der Guardian nannte es einen „großen Durchbruch für künstliche Intelligenz“ und zitierte Eleni Vasilaki von der Sheffield University und Tom Mitchell von der Carnegie Mellon University , die es als beeindruckende Leistung und als „herausragende technische Leistung“ bezeichneten. Mark Pesce von der University of Sydney nannte es AlphaGo Zero "ein großer technologischer Fortschritt", der uns in "unentdecktes Terrain" führt.

Gary Marcus , ein Psychologe an der New York University , hat gewarnt, dass AlphaGo nach allem, was wir wissen, "implizites Wissen über die Konstruktion von Maschinen zum Spielen von Problemen wie Go" enthalten kann und in anderen Bereichen getestet werden muss, bevor es verwendet werden kann sicher, dass seine Basisarchitektur bei viel mehr als dem Spielen von Go effektiv ist. Im Gegensatz dazu ist DeepMind "zuversichtlich, dass dieser Ansatz auf eine große Anzahl von Domänen verallgemeinert werden kann".

Als Reaktion auf die Berichte sagte der südkoreanische Go-Profi Lee Sedol : "Die vorherige Version von AlphaGo war nicht perfekt, und ich glaube, deshalb wurde AlphaGo Zero entwickelt." In Bezug auf das Potenzial für die Entwicklung von AlphaGo sagte Lee, er müsse abwarten, sagte aber auch, dass es junge Go-Spieler betreffen werde. Mok Jin-seok , der die südkoreanische Go-Nationalmannschaft leitet, sagte, dass die Go-Welt bereits die Spielstile früherer Versionen von AlphaGo imitiert und neue Ideen daraus entwickelt hat, und er hofft, dass neue Ideen von AlphaGo Zero kommen . Mok fügte auch hinzu, dass allgemeine Trends in der Go-Welt jetzt vom Spielstil von AlphaGo beeinflusst werden. "Zuerst war es schwer zu verstehen und ich hatte fast das Gefühl, gegen einen Außerirdischen zu spielen. Aber mit viel Erfahrung habe ich mich daran gewöhnt", sagte Mok. "Wir haben jetzt den Punkt überschritten, an dem wir die Kluft zwischen den Fähigkeiten von AlphaGo und den Menschen debattieren. Es ist jetzt zwischen Computern." Mok hat Berichten zufolge bereits mit der Analyse des Spielstils von AlphaGo Zero zusammen mit Spielern der Nationalmannschaft begonnen. "Obwohl wir nur wenige Spiele gesehen haben, hatten wir den Eindruck, dass AlphaGo Zero mehr wie ein Mensch spielt als seine Vorgänger", sagte Mok. Der Chinese Go-Profi Ke Jie kommentierte die bemerkenswerten Errungenschaften des neuen Programms: "Ein reines selbstlernendes AlphaGo ist das stärkste. Der Mensch scheint vor seiner Selbstverbesserung überflüssig zu sein."

Vergleich mit Vorgängern

Konfiguration und Stärke
Versionen Hardware abspielen Elo-Bewertung Streichhölzer
AlphaGo-Fan 176 GPUs , verteilt 3.144 5:0 gegen Fan Hui
AlphaGo Lee 48 TPUs , verteilt 3.739 4:1 gegen Lee Sedol
AlphaGo-Meister 4 TPUs, Einzelmaschine 4.858 60:0 gegen Profispieler;

Zukunft des Go-Gipfels

AlphaGo Zero (40 Tage) 4 TPUs, Einzelmaschine 5,185 100:0 gegen AlphaGo Lee

89:11 gegen AlphaGo Master

AlphaZero (34 Stunden) 4 TPUs, Einzelmaschine 4.430 (geschätzt) 60:40 gegen einen 3-tägigen AlphaGo Zero

AlphaZero

Am 5. Dezember 2017 veröffentlicht DeepMind Team eine Preprint auf arXiv , Einführung AlphaZero, ein Programm mit generali AlphaGo Zero - Ansatz, der innerhalb von 24 Stunden ein übermenschliches Niveau des Spiels in erreicht Schach , Shogi und Go , Weltmeister Programme zu besiegen, Stockfisch , Elmo und jeweils 3-Tage-Version von AlphaGo Zero.

AlphaZero (AZ) ist eine allgemeinere Variante des AlphaGo Zero (AGZ) Algorithmus und kann Shogi und Schach sowie Go spielen. Unterschiede zwischen AZ und AGZ umfassen:

  • AZ verfügt über hartcodierte Regeln zum Festlegen von Suchhyperparametern .
  • Das neuronale Netz wird nun ständig aktualisiert.
  • Schach (im Gegensatz zu Go) kann unentschieden enden; daher kann AZ die Möglichkeit eines Unentschiedens berücksichtigen.

Ein Open-Source- Programm, Leela Zero , basierend auf den Ideen aus den AlphaGo-Papieren, ist verfügbar. Es verwendet eine GPU anstelle der TPUs, auf die sich die neuesten Versionen von AlphaGo verlassen.

Verweise

Externe Links und weiterführende Literatur