テキストプロンプトから効果音を生成する生成器があったら楽しそう。録音以外の方法でゼロから作れる音の種類は今のところ限定的である。地味ではあるものの、できることの拡大度合いはイラスト生成より大きいのではないかなあ。
Diffsound: Discrete Diffusion Model for Text-to-sound Generation | text-to-sound-synthesis-demo
ということであった。今は mel-spectrogram から波形を生成する部分にもニューラルネットワークを使うのか。