torchaudio.prototype.models.conformer_wav2vec2_model¶
- torchaudio.prototype.models.conformer_wav2vec2_model(extractor_input_dim: int, extractor_output_dim: int, extractor_stride: int, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_num_layers: int, encoder_num_heads: int, encoder_ff_interm_features: int, encoder_depthwise_conv_kernel_size: Union[int, List[int]], encoder_dropout: float, encoder_convolution_first: bool, encoder_use_group_norm: bool) Wav2Vec2Model [原始碼]¶
建構一個自訂的 Conformer Wav2Vec2Model
- 參數:
extractor_input_dim (int) – 特徵的輸入維度。
extractor_output_dim (int) – 特徵提取後的輸出維度。
extractor_stride (int) – 特徵提取的時間縮減層中使用的步幅。
encoder_embed_dim (int) – 特徵投影中嵌入的維度。
encoder_projection_dropout (float) – 將輸入特徵投影到
embed_dim
後應用的 dropout 機率encoder_num_layers (int) – 編碼器中 Conformer 層的數量。
encoder_num_heads (int) – 每個 Conformer 層中的 head 數量。
encoder_ff_interm_features (int) – 每個 Conformer 層中前饋網路的隱藏層維度。
encoder_depthwise_conv_kernel_size (int 或 List[int]) – 對應於每個 Conformer 層的核大小列表。如果提供 int,則所有層將具有相同的核大小。
encoder_dropout (float) – 每個 Conformer 層中的 Dropout 機率。
encoder_convolution_first (bool) – 是否在每個 Conformer 層中的注意力模組之前應用卷積模組。
encoder_use_group_norm (bool) – 是否在每個 Conformer 層的卷積模組中使用
GroupNorm
而不是BatchNorm1d
。
- 返回:
帶有 conformer 編碼器的 wav2vec2 模型。
- 返回類型: