HIFIGAN_VOCODER_V3_LJSPEECH¶
- torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶
HiFiGAN 聲碼器管線,在The LJ Speech Dataset [Ito 和 Johnson,2017] 上訓練。
此管線可以與外部元件一起使用,該元件從文字產生梅爾頻譜圖,例如 Tacotron2 - 請參閱
HiFiGANVocoderBundle
中的範例。雖然這適用於現有的 Tacotron2 套件,但為了獲得最佳結果,需要使用與訓練 HiFiGAN 相同的資料預處理管線重新訓練 Tacotron2。特別是,原始的 HiFiGAN 實作使用自訂方法從波形產生梅爾頻譜圖,不同於torchaudio.transforms.MelSpectrogram
。我們將此轉換重新實作為HiFiGANVocoderBundle.get_mel_transform()
,確保它等同於原始 HiFiGAN 程式碼 這裡。底層聲碼器由
torchaudio.prototype.models.hifigan_vocoder()
建構。權重是從原始論文 [Kong et al.,2020] 在 MIT 許可證 下發布的權重轉換而來。請參閱 GitHub 上預訓練模型的連結。請參閱
HiFiGANVocoderBundle
以取得使用說明。