das ist das Prinzip vom "reinforcement learning" - der Roboter bekommt für sagen wir mal jeden erfolgreichen Centimeter einen Punkt, für eine Geschwindigkeit einen Multiplikator drauf und bekommt als Aufgabe, die Belohnung zu maximieren. Das tut er, indem er zufällig Bewegungsabläufe wählt und das Ergebnis überprüft. (schon den Link angeguckt? der wackelt sich am Anfang auch einen zurecht, aber nach ein paar tausend Schritten hat der den Weg raus)

Mit so einem Konzept haben die mal 'nen Backgammon-Spiel entwickelt, dass dann nach ca. 5mio Spielen gegen sich selbst (geht bei Rechnern ja recht schnell) mutmaßlich so gut wurde wie der beste menschliche Spieler. Jaja, die Theoretiker