• 文件 >
  • torchaudio.models >
  • 舊版本(穩定版)
捷徑

torchaudio.models

torchaudio.models 子套件包含用於處理常見音訊任務的模型定義。

注意

對於具有預訓練參數的模型,請參閱 torchaudio.pipelines 模組。

模型定義負責建構計算圖並執行它們。

有些模型具有複雜的結構和變體。對於這些模型,提供了工廠函數。

Conformer

Conformer 架構在 Conformer: Convolution-augmented Transformer for Speech Recognition [Gulati et al., 2020] 中引入。

ConvTasNet

Conv-TasNet 架構在 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo and Mesgarani, 2019] 中引入。

DeepSpeech

DeepSpeech 架構在 Deep Speech: Scaling up end-to-end speech recognition [Hannun et al., 2014] 中引入。

Emformer

Emformer 架構在 Emformer: Efficient Memory Transformer Based Acoustic Model for Low Latency Streaming Speech Recognition [Shi et al., 2021] 中引入。

HDemucs

來自 Hybrid Spectrogram and Waveform Source Separation 的混合 Demucs 模型 [Défossez, 2021]

HuBERTPretrainModel

用於 HuBERT [Hsu et al., 2021] 中預訓練的 HuBERT 模型。

RNNT

遞迴神經網路轉換器 (RNN-T) 模型。

RNNTBeamSearch

用於 RNN-T 模型的 Beam Search 解碼器。

SquimObjective

語音品質與清晰度量測 (Speech Quality and Intelligibility Measures, SQUIM) 模型,用於預測語音增強的客觀指標分數 (例如,STOI、PESQ 和 SI-SDR)。

SquimSubjective

語音品質與清晰度量測 (Speech Quality and Intelligibility Measures, SQUIM) 模型,用於預測語音增強的主觀指標分數 (例如,平均意見分數 (Mean Opinion Score, MOS))。

Tacotron2

Tacotron2 模型來自 Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [Shen et al., 2018],基於 Nvidia Deep Learning Examples 的實作。

Wav2Letter

Wav2Letter 模型架構來自 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System [Collobert et al., 2016]

Wav2Vec2Model

wav2vec 2.0 中使用的聲學模型 [Baevski et al., 2020]

WaveRNN

WaveRNN 模型來自 Efficient Neural Audio Synthesis [Kalchbrenner et al., 2018],基於 fatchord/WaveRNN 的實作。

文件

存取 PyTorch 的完整開發者文件

檢視文件

教學

取得適合初學者和進階開發人員的深入教學課程

檢視教學課程

資源

尋找開發資源並獲得問題解答

檢視資源