てがみ: qatacri at protonmail.com | 統計 | 2025

202508301

Transformer の原論文では「embedding と pre-softmax linear transform (最後のデコーダー出力の部分だよね?) でウェイト行列を共有している」と書かれているのだが、そうなっている実装が見つからない。意図的な変更なのか見落としなのか。言語モデルのアーキテクチャとしては両方使われているみたいだが。