捷徑

ConformerWav2Vec2PretrainModel

class torchaudio.prototype.models.ConformerWav2Vec2PretrainModel(wav2vec2: Wav2Vec2Model, mask_generator: Module, negative_sampler: Module)[source]

Conformer Wav2Vec2 預訓練模型,用於從頭開始訓練。

注意

若要建置模型,請使用其中一個工廠函數,conformer_wav2vec2_base()conformer_wav2vec2_large()

參數:
  • wav2vec2 (nn.Module) – 基於 Conformer 的 Wav2Vec2 模型,包含特徵提取器和 Conformer 編碼器元件。

  • mask_generator (nn.Module) – 遮罩產生器,用於在訓練期間產生遮罩預測的遮罩。

  • negative_sampler (nn.Module) – 負採樣器,用於在遮罩後應用。

方法

forward

ConformerWav2Vec2PretrainModel.forward(features: Tensor, audio_lengths: Optional[Tensor] = None) Tuple[Tensor, Optional[Tensor], Tensor, Tensor][source]
參數:
  • features (Tensor) – 形狀為 (batch, frame, dim) 的音訊特徵張量。

  • audio_lengths (TensorNone, optional) – 張量,表示批次中每個有效音訊的有效長度。形狀: (batch, ) (預設: None)

返回:

Tensor

形狀為 (batch, frame dim) 的遮罩序列機率分佈。

Tensor 或 None

如果提供 lengths 引數,則會傳回形狀為 (batch, ) 的張量,表示時間軸上的有效長度。

Tensor

遮罩索引。

Tensor

目標,在負採樣之前。

Tensor

負樣本。

Tensor

負樣本的索引。

返回類型:

(Tensor, Optional[Tensor], Tensor, Tensor, Tensor, Tensor)

工廠函數

conformer_wav2vec2_pretrain_model

建置自訂 Conformer Wav2Vec2 模型以進行預訓練

conformer_wav2vec2_pretrain_base

Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [Srivastava et al., 2022] 建置具有「小型」架構的 Conformer Wav2Vec2 模型以進行預訓練

conformer_wav2vec2_pretrain_large

Conformer-Based Slef-Supervised Learning for Non-Speech Audio Tasks [Srivastava et al., 2022] 建置具有「大型」架構的 Conformer Wav2Vec2 模型以進行預訓練

文件

存取 PyTorch 的完整開發者文件

檢視文件

教學

取得初學者和進階開發者的深入教學

檢視教學

資源

尋找開發資源並獲得問題解答

檢視資源