てがみ: qatacri at protonmail.com | 統計 | 2020

202009802

ノイズを含む複数の値を複数回サンプリングして max を推定したい。囲碁の思考プログラムで有名なモンテカルロ木探索では UCB 戦略というものを使っている。 UCB は多腕バンディット問題での報酬最大化を目指す戦略の一つで、たしかにサンプル数無限大の極限で報酬の平均値は max に収束する。でも報酬最大化と max 値の推定は問題設定が少し違うのが気になる。後者に最適な戦略なり推定式は、また変わってこないの? (そんなこと考えられていないはずないけれど)

まずは UCB 戦略の理論的根拠をちゃんと勉強しよう…。