Ist das ein Grundlegend neuer Ansatz? Den habe ich so noch nie gehört.

Jedoch wird das Netz sehr wohl bestraft. Schau dir mal das Q-Learning an. Die richtige Aktion wird belohnt, die falsche bestraft. Hierzu wird aber eine "Lernrate" mitgegeben (die nichts mit der Learnrate des FF-Netzes zu tun hat):

Aus meinem Quellcode oben:

qval[action] = (reward < 0.0) ? (reward + (gamma * maxQ)) : reward;

Wird bestraft, wird die maximale Aktion des Folgeschrittes genommen (maxQ) und mit der Lernrate multipliziert. Anschließend wird es zum negativen reward (Bestrafung) addiert...
Folglich, wird die falsche starke Aktion bestraft und eine kleinere Ausgabe wird antrainiert... Natürlich sollte gamma unter 1,0 liegen! Ich verwende aktuell 0,9.

Es gibt da schon verdammt gute Konzepte... Ich denke nicht, dass du hier eigene Sachen entwickeln musst! Aber ohne das sich Leute einen Kopf darüber machen, gibt es keine neuen Erkenntnisse... Von daher... auf auf!

Viele Grüße

Sebastian