てがみ: qatacri at protonmail.com | 統計 | ⟨ 2025 ⟩
: qatacri at protonmail.com |
|
⟨ 2025 ⟩
ニューラルネットワークはウェイトを目で確認できるくらいのパラメータ数で試すと、あまりうまくフィッティングするという印象を持たない。まあだからこそ長いニューラルネット冬の時代があったのだろうけれど。
Decoder-only Transformer もパラメーター数が少ないところで試しているとぜんぜん印象が良くない。私だったらこんなの真っ先に捨てていたと思う。この可能性に気づけたのはすごいなあ。