DALL-E2 の embedding の次元が気になったので調べる。 DALL-E2 では CLIP という手法を一部に使っていて、テキストと画像の類似度を計算できるような embedding が得られるらしい。
Learning Transferable Visual Models From Natural Language Supervision
CLIP の論文で使っている embedding の次元は 512 .. 1024 くらい (ただし DALL-E2 はこのベクトルだけを生成モデルに渡しているわけではない?)。機械学習に疎い人間からすると、短文とはいえ文章を丸々 1k 次元程度のフラットなベクトル空間にマップして扱うというのは驚きを通り越して感情が無になる。