torchaudio.prototype.pipelines¶
pipelines 子套件包含具有預訓練權重的模型和相關工具的 API。
RNN-T 串流/非串流 ASR¶
預訓練模型¶
基於 Emformer-RNNT 的預訓練 ASR pipeline,能夠執行串流和非串流推論。 |
|
基於 Emformer-RNNT 的預訓練 ASR pipeline,能夠執行串流和非串流推論。 |
HiFiGAN Vocoder¶
介面¶
HiFiGANVocoderBundle
定義了能夠將 mel 頻譜圖轉換為波形的 HiFiGAN Vocoder pipeline。
資料類別,將相關資訊綁定在一起,以使用預訓練的 |
預訓練模型¶
HiFiGAN Vocoder pipeline,在 The LJ Speech Dataset [Ito and Johnson, 2017] 上訓練。 |
VGGish¶
介面¶
從 torchvggish 和 tensorflow-models 移植的 VGGish [Hershey et al., 2017] 推論 pipeline。 |
|
VGGish 模型的實作 [Hershey et al., 2017]。 |
|
將原始波形轉換為批次範例,以用作 VGGish 的輸入。 |
預訓練模型¶
預訓練的 VGGish [Hershey et al., 2017] 推論管線,移植自 torchvggish 和 tensorflow-models。 |