ピッチシフト / タイムストレッチは、というか time-freq 表現での信号処理にはもっとエレガントな方法がありそうに思えて、定期的に考えてしまう。
Pitch-shifting algorithm design and applications in music
2017 年に phase vocoder ベースの良さげな手法が提案されていた。
Phase Vocoder Done Right (Demo)
Phase Vocoder Done Right (Paper)
位相の時間方向微分だけでなく、周波数方向微分もうまく合うように最適化する。群遅延が dθ/dω
で表されることを考えれば、 smearing の低減に効果があることは納得できる。結果もかなりいい感じ。位相の最適化はより精度の高い方法も考えられそうである。まあそもそも STFT で位相をこねこねするアプローチが理想的な方法とは思えないけれど、ウェーブレットなんかが幅を効かせているわけでもないようだし、うーん。
pYIN — pitch and note tracking in monophonic audio
PYIN: A FUNDAMENTAL FREQUENCY ESTIMATOR USING PROBABILISTIC THRESHOLD DISTRIBUTIONS
ついでに f0 estimation の手法もメモ。