HIFIGAN_VOCODER_V3_LJSPEECH¶

torchaudio.prototype.pipelines.HIFIGAN_VOCODER_V3_LJSPEECH¶

HiFiGAN 聲碼器管線，在The LJ Speech Dataset [Ito 和 Johnson，2017] 上訓練。

此管線可以與外部元件一起使用，該元件從文字產生梅爾頻譜圖，例如 Tacotron2 - 請參閱 HiFiGANVocoderBundle 中的範例。雖然這適用於現有的 Tacotron2 套件，但為了獲得最佳結果，需要使用與訓練 HiFiGAN 相同的資料預處理管線重新訓練 Tacotron2。特別是，原始的 HiFiGAN 實作使用自訂方法從波形產生梅爾頻譜圖，不同於 torchaudio.transforms.MelSpectrogram。我們將此轉換重新實作為 HiFiGANVocoderBundle.get_mel_transform()，確保它等同於原始 HiFiGAN 程式碼這裡。