Das Problem mit dem großen Gewicht bei Werten, die zufällig dem alten Mittelwert entsprechen, sollte sich lösen lassen. Am einfachsten, indem man einfach eine feste obere Schranke einbaut. Das könnte etwa so sein, das der letzte Wert maximal etwa 1/3 des Gesamtwichtes haben kann.
Eine andere alternative wäre es statt der harten Begrenzung eine nichtlineare Funktion zu nutzen, die bei einem Wert in Sättigung geht. Z.B. statt 1/(Xn+1-Xm)^2 einfach 1/((Xn+1- Xm)^2 + const.)

Schon ein interessanter Ansatz, aber es gibt noch ein paar Probleme:
Wenn man einmal k Werte hat zu zufällig gleich sind, das kann beim AD mit nicht so viel Auflösung und eher kleinem k) schon mal vorkommen, dann werden andere Werte kaum noch berücksichtige und man kommt kaum davon weg.

Wenn die Werte wirklich stark verrauscht sind, kommt auch mal ein Wert nahe dem alten Mittelwert zufäälig vor, und der wird dann besonders stark gewertet. Das ist aber für ein normalverteiltes Rauschen nicht ideal. Ideal wäre da ein einfaches konstates gewicht.

Die Idee Werte die Weit von dem erwarteten Mittelwert abweichen schwächer zu gewichten findet man in sogenanten robusten Schätzern. Die Idee dabei ist es einzelen Ausreißer die mehr oder weniger offensichtlich nicht zu den anderen Werten passen nicht zu berücksichtigen. Der eher übliche Weg ist es Regeln zu finden welche Werte als Ausreißer gelten und dann gar nicht mehr berücksichtiget werden. Das könnten werte sein, die mehr als z.B. 4 mal so stark vom alten mittelwert abweichen wie sonst üblich. Oder man verwirft von z.B. 10 Werten den größten und den kleinsten. Bis hin zum Median, als nur dem Wert mit mittlerer Größe aus den letzten k werten.

Verglichen mit dem Verfahren oben, werden dabei die meisten werte gleich gewichtet, nur Werte die wirklich weit abweichen bekommen weniger Gewicht. Die oben vorgeschlagene Begrenzung der Gewichte ist also mehr die Regel als die Ausnahme.