Hallo Zusammen,
ich habe momentan die Aufgabe bekommen ein selbstlernendes PingPong Spiel zu programmieren mithilfe von Reinforcement Learning. Leider bin ich mir nicht sicher, ob ich diesen Algorithmus zu 100% verstanden habe. Momentan habe ich ein Array implementiert, das zufällig 1 und 0 speichert. Je nach dem ob es eine 1 oder eine null ist wird der Schläger nach links oder rechts bewegt. Wenn der Ball nicht den Schläger berührt gibt es einen negativen "reward" und der letzte Punkt der Liste wird geändert. Nach 10 Minuten Laufzeit, zeigt das Programm keine guten Resultate. Kann mir jemand von euch sagen, ob ich das Prinzip richtig verstanden habe oder nicht? Und wenn ich es falsch verstanden habe eine Art Pseudocode geben um es richtig zu machen. Keine Angst, ich will hier keine fertige Lösung nur einen Denkanstoß damit ich in die richtige Spur komme und es richtig lerne.
Mit freundlichen Grüßen,
Thomas