てがみ: qatacri at protonmail.com | 統計 | ⟨ 2025 ⟩
: qatacri at protonmail.com |
|
⟨ 2025 ⟩
Scaled dot-product attention の scale, 一つ前に線形レイヤがあるのに意味あるのかなと思ったが、 gradient descent の効率には影響するか。まだ常識的な部分が何も分かっていない。