てがみ: qatacri at protonmail.com | 統計 | 2024

202406305

「素朴な SGD がデータの分散に応じたノイズを加える最適化になっている」というのはその通りだと思うが、 Adam みたいな momentum のある最適化には当てはまらないんじゃないの?