快速連結

HIFIGAN_VOCODER_V3_LJSPEECH

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN 聲碼器管線,在The LJ Speech Dataset [Ito 和 Johnson,2017] 上訓練。

此管線可以與外部元件一起使用,該元件從文字產生梅爾頻譜圖,例如 Tacotron2 - 請參閱 HiFiGANVocoderBundle 中的範例。雖然這適用於現有的 Tacotron2 套件,但為了獲得最佳結果,需要使用與訓練 HiFiGAN 相同的資料預處理管線重新訓練 Tacotron2。特別是,原始的 HiFiGAN 實作使用自訂方法從波形產生梅爾頻譜圖,不同於 torchaudio.transforms.MelSpectrogram。我們將此轉換重新實作為 HiFiGANVocoderBundle.get_mel_transform(),確保它等同於原始 HiFiGAN 程式碼 這裡

底層聲碼器由 torchaudio.prototype.models.hifigan_vocoder() 建構。權重是從原始論文 [Kong et al.,2020]MIT 許可證 下發布的權重轉換而來。請參閱 GitHub 上預訓練模型的連結。

請參閱 HiFiGANVocoderBundle 以取得使用說明。

文件

存取 PyTorch 的完整開發者文件

查看文件

教學

取得初學者和進階開發者的深入教學

查看教學

資源

尋找開發資源並獲得問題解答

查看資源