ノイズを含む複数の値を複数回サンプリングして max
を推定したい。囲碁の思考プログラムで有名なモンテカルロ木探索では UCB 戦略というものを使っている。 UCB は多腕バンディット問題での報酬最大化を目指す戦略の一つで、たしかにサンプル数無限大の極限で報酬の平均値は max
に収束する。でも報酬最大化と max
値の推定は問題設定が少し違うのが気になる。後者に最適な戦略なり推定式は、また変わってこないの? (そんなこと考えられていないはずないけれど)
まずは UCB 戦略の理論的根拠をちゃんと勉強しよう…。