Wav2Vec2Bundle¶
- class torchaudio.pipelines.Wav2Vec2Bundle[原始碼]¶
資料類別,捆綁相關資訊以使用預訓練的
Wav2Vec2Model
。此類別提供介面,用於實例化預訓練模型,以及檢索預訓練權重和與模型一起使用的其他資料所需之資訊。
Torchaudio 函式庫實例化此類別的物件,每個物件代表一個不同的預訓練模型。用戶端程式碼應透過這些實例存取預訓練模型。
請參閱下方的使用方法和可用值。
- 範例 - 特徵提取
>>> import torchaudio >>> >>> bundle = torchaudio.pipelines.HUBERT_BASE >>> >>> # Build the model and load pretrained weight. >>> model = bundle.get_model() Downloading: 100%|███████████████████████████████| 360M/360M [00:06<00:00, 60.6MB/s] >>> >>> # Resample audio to the expected sampling rate >>> waveform = torchaudio.functional.resample(waveform, sample_rate, bundle.sample_rate) >>> >>> # Extract acoustic features >>> features, _ = model.extract_features(waveform)
屬性¶
sample_rate¶
方法¶
get_model¶
- Wav2Vec2Bundle.get_model(*, dl_kwargs=None) Module [原始碼]¶
建構模型並載入預訓練權重。
權重檔案從網際網路下載,並使用
torch.hub.load_state_dict_from_url()
進行快取- 參數:
dl_kwargs (關鍵字引數字典) – 傳遞至
torch.hub.load_state_dict_from_url()
。- 傳回:
Wav2Vec2Model
的變體。對於下方列出的模型,輸入會執行額外的層正規化。
對於所有其他模型,會傳回
Wav2Vec2Model
實例。WAV2VEC2_LARGE_LV60K
WAV2VEC2_ASR_LARGE_LV60K_10M
WAV2VEC2_ASR_LARGE_LV60K_100H
WAV2VEC2_ASR_LARGE_LV60K_960H
WAV2VEC2_XLSR53
WAV2VEC2_XLSR_300M
WAV2VEC2_XLSR_1B
WAV2VEC2_XLSR_2B
HUBERT_LARGE
HUBERT_XLARGE
HUBERT_ASR_LARGE
HUBERT_ASR_XLARGE
WAVLM_LARGE