てがみ: qatacri at protonmail.com | 統計 | 2022

202222400

テキストプロンプトから効果音を生成する生成器があったら楽しそう。録音以外の方法でゼロから作れる音の種類は今のところ限定的である。地味ではあるものの、できることの拡大度合いはイラスト生成より大きいのではないかなあ。

Diffsound: Discrete Diffusion Model for Text-to-sound Generation | text-to-sound-synthesis-demo

ということであった。今は mel-spectrogram から波形を生成する部分にもニューラルネットワークを使うのか。