CompAnn -- Evolutionsprojekte

Table of Contents

CompAnn — Evolutionsprojekte

Zu CompAnn gehören neben den Neuroevolutionswerkzeugen selbst auch beispielhafte Evolutionsprojekte, die einerseits die Nützlichkeit und Wirksamkeit von CompAnn demonstrieren sollen, und andererseits als Vorlage für eigene Projekte dienen können.

1 Neuroevolution mit EvAnn

Neben dem Compiler cann stellt EvAnn als Bibliothek die Werkzeuge zur Neuroevolution selbst zur Verfügung. Genauere Informationen zu EvAnn finden sich in der technischen Dokumentation.

Die Vorgehensweise bei den Beispiel-Projekten war stets dieselbe, und ich schlage dieses Schema generell für EvAnn-Projekte vor:

  1. Formulieren der Aufgabenstellung bzw. der Ziele, welche Aufgabe soll das ANN möglichst optimal erfüllen?
  2. Implementierung eines Evaluators, der die ANNs nach ihrer Eignung für die gestellte Aufgabe bewertet; dies ist der Code, der verschiedene EvAnn-Projekte voneinander unterscheidet.
  3. Dieser Evaluator wird mit dem allgemeinen EvAnn-Code selbst zum Evolutionsprogramm kombiniert.
  4. Programmieren einer einfachen Lösung für das Problem in Anne, die dann als Ausgangspunkt der Evolution dient.
  5. Dem Computer viel Rechenzeit gönnen, die Evolution durchführen und die Ergebnisse auswerten.

2 sum — Summe zweier Binärzahlen

sum war das erste Testprojekt, und als solches geht es um eine eher bescheidene bzw. auch nicht wirklich “nützliche” Aufgabe.

2.1 Aufgabenstellung

Die Aufgabenstellung bei sum war es, ein ANN zu finden, das zwei 4-Bit-Binärzahlen richtig addiert, wobei die Addition “mit Überlauf” gefragt ist, also nur die 4 niederwertigen Bits des Ergebnisses.

Ein ANN, das die erlaubte Laufzeit von 10 Iterationen überschreitet (da es höchstwahrscheinlich nicht mehr ein gültiges “Programm” ist), wird mit einer negativen Fitness disqualifiziert.

Die Bewertung eines Ergebnisses kann hierbei auf zwei Arten erfolgen:

2.1.1 Bit-Modus

Im Bit-Modus wird die Anzahl der richtigen Bits des Ergebnisses gezählt; die Gesamtfitness ist der Durchschnitt an richtigen Bits über alle 256 möglichen Inputs.

2.1.2 Differenz-Modus

Der Differenz-Modus bewertet die Differenz zwischen ausgegebenem und richtigem Ergebnis. Die Fitness ergibt sich als 16-d, wobei d der Mittelwert der Ergebnis-Differenz bei allen möglichen Eingaben ist.

2.2 Ausgangspunkt

Als Ausgangspunkt für die Addition habe ich die binäre XOR-Funktion der beiden Summanden gewählt, da es auf Bitebene durchaus einige Gemeinsamkeiten zwischen XOR-Funktion und der gewünschten Summe gibt.

Das Ausgangsprogamm in Anne war somit:

     input uint4 a;
     input uint4 b;
     output uint4 out;

2.3 Ergebnisse

Mit einer verwendeten Populationsgröße von 100 Individuen stieg die Fitness der ANNs schon in den ersten Generationen sehr stark an, so dass die Wirksamkeit von Neuroevolution auf ein ANN dieser Größenordnung (wenige Neuronen, kurze Laufzeit, nicht sehr komplex) sehr schön ersichtlich ist.

Bei den verwendeten Einstellungen und auf dem verwendeten System entsprechen in etwa 3 Generationen einer Laufzeitsekunde.

2.3.1 Differenz-Modus

Fitness des Ausgangspunktes.
Nach 100 Generationen.
Nach 500 Generationen.
Nach 1000 Generationen.
Nach knapp 3900 Generationen.
Nach 10000 Generationen.
Nach 50000 Generationen.

Es wurde somit bereits nach einer Laufzeit von rund 21 Minuten, was für Neuroevolution noch leicht in den Bereich sehr kurz fällt, eine Fitness erreicht, die einer durchschnittlichen Abweichung von nur mehr einer Einheit entspricht; und das, obwohl die Summe zweier Binärzahlen, noch dazu mit einer so kurzen Laufzeit und Neuronenanzahl, sicherlich keine triviale Aufgabe für ein ANN darstellt!

Der Fitnesswert von 15.9375 wurde später in meinen Tests nicht mehr übertroffen — jedoch ist dieser Wert für rund 4.5 Stunden Laufzeit bereits sehr nahe an den perfekten 16, immerhin bedeutet er ein richtiges Ergebnis in 15 von 16 Fällen, und in dem einen Fall auch nur eine Abweichung um eine Einheit!

2.3.2 Bit-Modus

Fitness des Ausgangspunktes.
Nach 100 Generationen.
Nach 500 Generationen.
Nach rund 900 Generationen.

Somit wurde schon sehr bald die Fitness 3.5 erreicht, die bedeutet, dass das Ergebnis in der Hälfte aller Fälle richtig war, und in der anderen Hälfte nur ein Bit davon nicht stimmte.

Ein besseres Ergebnis erzielten meine Testläufe jedoch nicht einmal mehr nach bedeutend längerer Zeit; der Differenz-Modus scheint somit die bessere Art der Fitness-Bemessung für diese Aufgabe zu sein (wobei natürlich auch die Anforderungen ans ANN unterschiedlich sind).

2.4 sum ohne Vorgabe

Um den Vorteil einer vorgegebenen Strategie als Ausgangspunkt einschätzen zu können, habe ich dieselbe Evolution unter gleichen Bedingungen mit einer rein zufälligen Ausganspopulation gestartet.

Obwohl eine Aufgabe dieser Einfachheit sehr wohl auch schon teilweise erfolgreich von zufälligen ANNs gelöst werden kann (die Fitness 12 wurde erstaunlicherweise auch ohne Vorgabe schon innerhalb der ersten 10 Generationen erreicht!), und somit die Evolution auch ohne Vorgabe funktioniert, stagnierte der Evolutionsprozess deutlich früher — so war die Fitness nach 50000 Generationen erst bei 14.20 angelangt!

3 poker — Ein intelligenter Spieler

poker soll die Evolutionsfähigkeit eines kompilierten ANNs beweisen, wenn sowohl die Aufgabe wie auch das Programm komplexer werden.

3.1 Aufgabenstellung

Das Ziel von poker ist es, einen möglichst intelligenten Spieler für das im nächsten Abschnitt beschriebene Spiel (von Poker abgeleitet) zu finden. Es geht dabei um die Herausforderung, seine Strategie beim Wetten auf das aktuelle Spiel an seine Gewinnchancen wie auch das Verhalten seiner Gegenspieler anzupassen.

Die Interaktion erfolgt über einfache Programmaufrufe mit Parameterübergabe (für jede Wette), da die Spielsituation noch recht gut mit wenigen Parametern übergeben werden kann, und eine Interaktion mittels Callbacks das ANN nur zusätzlich unnötig mit der Speicherung des Spielverlaufs belasten würde.

3.2 Regeln

Ich verwende keine echte Poker-Variante mit Kartenkombinationen sondern eine Kombination aus zwei Würfeln, damit die Einschätzung der Gewinnchance für die ANNs einfacher wird; denn wäre ein echter Poker-Spieler gesucht, läge die Hauptschwierigkeit ja auch nicht in dieser Wahrscheinlichkeitsberechnung sondern im Element des Wettens auf gewisse Kombinationen gegen andere Spieler, das auch in meiner Poker-Variante vorkommt.

3.2.1 Spielprinzip

Bei diesem Spiel geht es darum, sein Startkapital (256 Einheiten) möglichst zu vermehren; je Spiel zahlen die Spieler in einen gemeinsamen Pot, der am Ende einem Sieger zugeteilt wird. Ein Spieler darf auch Schulden machen, jedoch nur mit gewissen Einschränkungen (wird später genauer erklärt).

Zu Beginn jedes Spiels zahlt jeder Spieler 1 Einheit Ante in den Pot, sozusagen als “Spielgebühr”. Danach würfelt er mit einem Würfel, das Ergebnis des Wurfs ist bis zum Spielende nur ihm bekannt.

Es folgt die erste Wettrunde, die ganz gleich wie beim herkömmlichen Poker gespielt wird: Der Reihe nach zahlen die Spieler ihre Einsätze in den Pot, jeweils mindestens so viel wie der vorhergehende Spieler oder gar nichts, wenn man dieses Spiel aufgeben möchte. Die Wettrunde endet, wenn wieder derjenige Spieler an die Reihe kommt, der zuletzt erhöht hat (also eine Runde lang jeder andere nur gleichgezogen ist), oder wenn nur mehr ein Spieler übrig bleibt, der sofort der Sieger dieses Spiels ist.

Nach der ersten Wettrunde wird mit einem zweiten Würfel wieder geheim gewürfelt, und es folgt die zweite Wettrunde ganz gleich wie die erste; danach kommt es zum Showdown: Wer von den verbleibenden Spielern die beste Kombination hat, gewinnt den gesamten Pot; haben zwei Spieler dieselbe Kombination, wird der Gewinn gleichmäßig auf alle Gewinner aufgeteilt.

Der Wert der Kombination aus zwei Würfeln ergibt sich folgendermaßen:

Somit reichen die “normalen Kombinationen” im Wert von 21 bis 65, danach kommt der Einser-Pasch, und die höchste mögliche Kombination ist ein Sechser-Pasch.

3.2.2 ANN-Aufruf und Disqualifikation

Vom ANN wird erwartet, dass es je nach Spielsituation seinen neuen Einsatz (den Betrag, den der Spieler in den Pot zahlen möchte), berechnet und zurück liefert; diese Eingabewerte werden dazu zur Beschreibung des aktuellen Spiels übergeben:

Der aktuelle Potinhalt.
Das aktuelle Gesamtgebot, auf das gleichgezogen werden muss.
Der Betrag, der zum Gleichziehen gewettet werden muss; niedriger darf der Rückgabewert nur dann sein, wenn das ANN aufgibt (und nichts zahlt).
Der maximal hinzu wettbare Betrag; das obere Limit für die Gesamtwette beträgt 256 Einheiten. Der Rückgabewert darf nicht größer als maxBet sein.
Aktueller Selbst-Kontostand bzw. 0, wenn man bereits Schulden hat.
Wert des ersten eigenen Würfels.
Wert des zweiten eigenen Würfels oder 0, wenn dieser noch unbekannt ist.
Gibt die aktuelle Wettrunde an (0 oder 1).

Ungültige Züge, die zur Disqualifikation führen, sind:

3.3 Bewertung der Fitness

Zur Fitnessbewertung wird bei poker nicht jedes ANN einzeln getestet, sondern die ANNs spielen dabei gegeneinander, das erzielte Ergebnis wird als Fitness verwendet. Wird ein ANN disqualifiziert oder überschreitet es die zuerkannte Laufzeit von 100 Iterationen, so gilt die Fitness für diese Runde als -65536. Im genauen Ablauf unterscheiden sich zwei mögliche Modi:

3.3.1 Geld-Modus

Jede Runde besteht aus 50 Spielen, die in Folge gespielt werden; nach jeder Runde erhalten die Spieler wieder ein gleiches Startkapital und werden wieder in zufälliger Reihenfolge zu anderen Mitspielern an die Tische verteilt.

Es werden 10 Runden gespielt, die Gesamt-Fitness eines ANNs ist die Summe der jeweiligen Endkontostände.

3.3.2 KO-Modus

Ein Spieler, der ins Minus rutscht, scheidet aus; die Runde geht so lange, bis nur mehr einer übrig ist. Nach der ersten Runde werden Spieler, die an ihren jeweiligen Tischen den gleichen “Rang” erzielt haben, zusammen an einen neuen Tisch gesetzt, und in dieser zweiten Runde wird ihr Rang untereinander ausgespielt.

Durch dieses “Turnier” wird die Gruppe in eine ranggeordnete Reihenfolge gebracht, die der nach diesem Modus ermittelten Fitness entspricht.

Hier werden nur zwei Runden gespielt, und die Anzahl der Spiele je Runde ist unbegrenzt (sie hängt davon ab, wann alle bis auf einen Spieler ausgeschieden sind).

3.4 Schwierigkeiten

Der Ansatz, dass die Fitness der ANNs nicht mehr absolut sondern im Wettstreit mit den anderen Populationsmitgliedern ermittelt wird, ist nicht nur “interessant” bzw. für die gegebene Aufgabenstellung der einzige praktikable Weg, sondern führt leider auch zu ein paar Schwierigkeiten:

3.5 Vorgegebene Strategien

Um natürlich auch bei poker das “CompAnn-System” zu benutzen, habe ich auch hier vier Strategien vorprogrammiert und sowohl als konstante Gegenspieler zur Bewertung der anderen ANNs wie auch als Ausgangspunkte der Evolution verwendet:

Gibt schlicht und einfach jedes Mal sofort auf.
Geht immer mit, solange der Caller noch nicht verschuldet ist.
Geht in der ersten Runde immer mit und erhöht aggressiv in der zweiten, wenn ein Pasch gewürfelt wurde; wenn nicht, gibt der Pascher auf.
Die “beste” vordefinierte Strategie, die nicht so speziell wie die anderen drei ist; sie wettet nach einer mehrstufigen Fallunterscheidung von mir (intuitiv) vorgegebene Beträge.

Es wird somit eigentlich ein breites Spektrum an Spielweisen, wie sie auch in echten Pokerspielen von Menschen zu finden sind, abgedeckt: Der Folder wartet (bis ins Unendliche) auf einen Royal Flush, der Caller gibt im Vertrauen auf sein Glück niemals auf und der Pascher spielt sehr aggressiv, wenn er ein gutes Blatt zu haben glaubt.

Die “Poker”-Strategie selbst stellt einen Versuch dar, diese Eigenschaften möglichst gut zu vereinen, und kann damit sicher schon als “brauchbare” Strategie gelten, wenn sie auch trotzdem sehr einfach gehalten ist.

3.6 Ergebnisse

Da ich bei poker keine absolute Fitness der besten ANNs mehr angeben kann, werde ich hier Ergebnislisten von gespielten Poker-Turnieren als Beschreibung des jeweilig erzielten Stands einfügen; die Turnier-Spieler sind jeweils die vorgegebenen ANNs sowie die 10 aktuell besten Populationsmitglieder, die mit ANN bezeichnet werden.

Da es sich wie oben schon erwähnt um ein Glücksspiel handelt, ist es nicht auszuschließen bzw. sogar in einen gewissen Maße wahrscheinlich, dass die Turnierergebnisse mit gleichen Spielern vom einen zum anderen Mal variieren. Um diese Abweichungen ein wenig auszugleichen, werden jeweils 100 Wiederholungen des Systems gespielt, nach dem die ANNs während der Evolution bewertet wurden (siehe poker Bewertung); die Summe der dabei erzielten Fitness-Werte ist für das Gesamtranking ausschlaggebend und wird ebenso in der Ergebnisliste mitangegeben.

3.6.1 Geld-Modus

In diesem Modus dauert eine Generation in etwa 20 Laufzeitsekunden, das Ranking der Vorgabe-Strategien ist:

# Strategie Summe
1. Poker 1222213
2. Folder 110640
3. Pascher -141514
4. Caller -168326

Nach 100 Generationen hat sich die Population mit einigen Derivaten des Poker-Algorithmus gefüllt, die aber nur schwächer geworden sind:

# Strategie Summe
1. Poker 190453
2. ANN 188108
3. ANN 176691
4. ANN 170738
5. ANN 166903
6. ANN 155067
7. ANN 149122
8. ANN 146524
9. ANN 139291
10. ANN 138804
11. ANN 137725
12. Folder -24176
13. Caller -54789
14. Pascher -1324438

Nach 500 Generationen sind bereits Populationsmitglieder vorhanden, die (ob Zufall oder nicht) die Ausgangsstrategie schlagen:

# Strategie Summe
1. ANN 1154292
2. ANN 1092472
3. ANN 1049130
4. ANN 1032012
5. Poker 1015129
6. ANN 956468
7. ANN 920816
8. ANN 915469
9. ANN 877949
10. ANN 866393
11. ANN 718109
12. Folder -18298
13. Caller -320374
14. Pascher -6696442

Dieser Vorsprung vergrößert sich bei 1000 Generationen:

# Strategie Summe
1. ANN 1082217
2. ANN 1054668
3. ANN 1040945
4. ANN 1035375
5. ANN 1029182
6. ANN 990754
7. Poker 942640
8. ANN 918367
9. ANN 912709
10. ANN 895273
11. ANN 820239
12. Folder -17621
13. Caller -321276
14. Pascher -6821189

Nach 5000 Generationen wurde die Ausgangsstrategie sogar von allen Populationsmitgliedern geschlagen:

# Strategie Summe
1. ANN 1169660
2. ANN 1047099
3. ANN 1007357
4. ANN 997625
5. ANN 960176
6. ANN 945422
7. ANN 906975
8. ANN 906300
9. ANN 905736
10. ANN 902529
11. Poker 891429
12. Folder -17803
13. Caller -317799
14. Pascher -6741184

Bei Generation 10000 kam die große Überraschung: Wie aus dem Verlauf der Endkontostände des jeweils besten ANNs einer Generation deutlich zu ersehen ist (Sprung von 20000 auf 50000 und mehr in wenigen Generationen!), fand ein ANN zwischen den Generationen 7775 und 7800 eine deutlich bessere Strategie, bzw. vermutlich eine Strategie, die die Schwächen der vordefinierten Verfahren, vor allem auch des “Poker”-Spielers, viel besser ausnützt, als es zuvor geschehen war!

Damit war zu diesem Zeitpunkt und nach gut 40 Stunden Laufzeit das Zeitalter meiner handprogrammierten Strategie(n) vorüber:

# Strategie Summe
1. ANN 2804921
2. ANN 2603740
3. ANN 2481769
4. ANN 2326535
5. ANN 2248559
6. ANN 2027041
7. ANN 1579749
8. ANN 1424550
9. ANN 1204667
10. ANN 1181381
11. Folder -12588
12. Poker -300900
13. Caller -328007
14. Pascher -15666747

Dieses beste ANN, das die Gegenstrategie zu meinen vordefinierten “Intelligenzen” darstellt, habe ich für die weitere Evolution als festes Populationsmitglied, wie eben die vier vordefinierten Strategien, aufgenommen und kennzeichne es in den folgenden Ranglisten mit Antipoker.

Nach 15000 Generationen hat sich schon lange wieder eine Gegenstrategie zu Antipoker entwickelt:

# Strategie Summe
1. ANN 2808233
2. ANN 2548897
3. ANN 2497800
4. ANN 2424534
5. ANN 2277031
6. ANN 1947973
7. ANN 1727092
8. Antipoker 1636369
9. ANN 1352735
10. ANN 1342082
11. ANN 1208307
12. Folder -14669
13. Caller -335523
14. Poker -858017
15. Pascher -16739984

Ich habe mich entschlossen, das Evolutionsexperiment an diesem Punkt abzubrechen; ich habe den Sieger dieses obigen Turniers als Evolution ausgewählt und abschließend noch ein paar Turniere mit unterschiedlichen Spielermengen durchgeführt. Die endgültige Rangliste ist:

# Strategie Summe
1. Evolution 4824897
2. Antipoker 3844896
3. Poker 474211
4. Folder 49337
5. Caller 288229
6. Pascher 7371716

Dieses Ergebnis entspricht somit voll und ganz den Erwartungen; die Poker-Strategie schneidet wohl deshalb hier deutlich besser ab als in den Zwischenständen, da hier nur 2 und nicht 10 Evolutionsspieler vorhanden sind, die vermutlich alle eine Strategie auf Antipoker basierend verwenden. Das schlechte Ergebnis des Paschers (hier wie auch schon weiter oben) ist dadurch zu erklären, dass diese Strategie oft doch recht gewagt sehr aggressiv erhöht.

Es mag sich nun die Frage stellen, ob die Evolutionsstrategien auf einen gewissen anderen Spieler als “Geldlieferanten” angewiesen sind, gegen den sie besonders effektiv spielen; doch auch wenn je einer der obigen Gegner weggelassen wird, bleibt bzw. bleiben die Evolutionsstrategie(n) absolut ungeschlagen.

Ebenso ungeschlagen bleibt der Evolutionssieger im Einzelduell mit jeder dieser anderen Strategien. Die Evolution dieses doch sicherlich komplizierten, kompilierten ANNs ist somit offensichtlich sehr erfolgreich und alles andere als unmöglich oder ineffizient abgelaufen!

3.6.2 KO-Modus

In diesem Modus ist das Ranking der Ausgangsstrategien gleich:

# Strategie Summe
1. Poker 1366
2. Folder 803
3. Pascher 614
4. Caller 217

Allerdings gab ich ernsthafte Evolutionsversuche mit dieser Art der Bewertung sehr bald auf, da die Laufzeit einer Generation bei mehr als 2 Minuten liegt, also 6 Mal höher als im Geld-Modus, der ja schon je Generation für jedes Populationsmitglied 500 Spiele simuliert.

Dies liegt daran, dass Spiele zwischen Spielern mit sehr ähnlicher oder sogar gleicher Strategie ziemlich lange hingezogen werden, da ja so lange gespielt wird, bis einer dieser pleite geht — was durch die zufallsbedingten “Unfairheiten” zwar früher oder später passiert, aber meistens eine sehr große Zahl an Spielen dauert.

Es ist jedoch anzunehmen, dass in diesem Modus ähnliche oder wahrscheinlich sogar schlechtere Ergebnisse zu erwarten wären, wie es im Geld-Modus der Fall ist — denn dort wird die Fitness besser (bzw. fairer) abgestuft, und es sind (beinahe) gleiche Fitnesswerte für gleiche Strategien möglich, was der evolutionsbedingten Selektion sicher eher zu Gute kommt.

3.7 Vergleich ohne Vorgabe

Um auch hier den Vergleich zur Evolution ohne Vorgabe zu haben, habe ich unter gleichen Bedingungen (nur im Geld-Modus) eine Evolution von zufälligen ANNs ausgehend simuliert.

Nach 50000 Generationen (gut 4 Stunden Laufzeit) habe ich den Versuch wieder abgebrochen, denn wie fast zu erwarten war, konnte kein einziges ANN über die Fitness von -65536 hinauskommen, also von der Strategie einmal abgesehen überhaupt richtig spielen.

Man muss natürlich zugeben, dass es hier ja auch quasi darum ging, solange zufällig zu probieren, bis wenigstens ein ANN einmal nicht disqualifiziert wird; denn solange alle dieselbe Fitness haben, wirken auch noch keine Prinzipien von Evolution! Mit einem ausgefeilteren Bewertungsschema und einer für diesen Fall optimierten Evolutionssimulation hätte man sicherlich bessere Ergebnisse erzielen können, jedoch bestimmt in keiner Weise so einfach und erfolgreich wie mittels vorgegebener Strategien unter Verwendung von CompAnn!

Appendix A GNU Free Documentation License

