てがみ: qatacri at protonmail.com | 統計 | ⟨ 2024 ⟩
: qatacri at protonmail.com |
|
⟨ 2024 ⟩
「素朴な SGD がデータの分散に応じたノイズを加える最適化になっている」というのはその通りだと思うが、 Adam みたいな momentum のある最適化には当てはまらないんじゃないの?