ニューラルネットワークの学習で使われる momentum をつけた最適化手法は、普通の高次元空間上の関数の極小値を求めるときにも有効なんだろうか。必ずしも極小点で停止する必要がない、正則化の観点からむしろ到達する前に止める、という特殊事情に依るところが大きそうに思える。
SGD Momentum の気持ちを理解する - Speaker Deck
全く逆だった。単純ではないが momentum は Stochastic GD で勾配が揺れるのを抑制するため、 momentum があった方が良い解に収束する。でもこれは最適解から出発した場合の分散を評価しているのか。それだと momentum が大きい方が良い値になるのは当たり前のような。何か読み違えている気がする。