捷徑

TACOTRON2_GRIFFINLIM_PHONE_LJSPEECH

torchaudio.pipelines.TACOTRON2_GRIFFINLIM_PHONE_LJSPEECH

基於音素的 TTS 管線,使用在 LJSpeech 上訓練 1,500 個 epoch 的 Tacotron2 [Ito and Johnson, 2017],並使用 GriffinLim 作為聲碼器。

文字處理器根據音素對輸入文字進行編碼。它使用 DeepPhonemizer 將字素轉換為音素。該模型 (en_us_cmudict_forward) 在 CMUDict 上進行訓練。

您可以在這裡找到訓練腳本。文字處理器設定為 “english_phonemes”

請參閱 torchaudio.pipelines.Tacotron2TTSBundle() 以了解用法。

範例 - “Hello world! T T S stands for Text to Speech!”

Spectrogram generated by Tacotron2

範例 - “The examination and testimony of the experts enabled the Commission to conclude that five shots may have been fired,”

Spectrogram generated by Tacotron2

文件

存取 PyTorch 的完整開發人員文件

檢視文件

教學

取得適合初學者和進階開發人員的深入教學

檢視教學

資源

尋找開發資源並獲得問題解答

檢視資源