初期の deep learning は「このモデルを最適化できることは驚異的だが、モデルがそのタスクをこなせる表現能力を持つこと自体はそれほど不思議ではない」という感じだったけれど、今は後者も自明でないと感じるモデルが多い。このへん専門の人がどういう感覚を持っているか気になる。
まあそれに限らず、全体的に感覚が分からないという気持ちが強い。 positional encoding を足す処理とか、「はあ?」という声しか出てこないのだけれど、実際に試行錯誤を重ねている人にはうまくいきそうなアイデアに見えるんだろうか。