memo

てがみ: qatacri at protonmail.com | 統計 | ⟨ 2025 ⟩

202508301

Transformer の原論文では「embedding と pre-softmax linear transform (最後のデコーダー出力の部分だよね?) でウェイト行列を共有している」と書かれているのだが、そうなっている実装が見つからない。意図的な変更なのか見落としなのか。言語モデルのアーキテクチャとしては両方使われているみたいだが。