捷徑

torchaudio.prototype.models.conformer_rnnt_model

torchaudio.prototype.models.conformer_rnnt_model(*, input_dim: int, encoding_dim: int, time_reduction_stride: int, conformer_input_dim: int, conformer_ffn_dim: int, conformer_num_layers: int, conformer_num_heads: int, conformer_depthwise_conv_kernel_size: int, conformer_dropout: float, num_symbols: int, symbol_embedding_dim: int, num_lstm_layers: int, lstm_hidden_dim: int, lstm_layer_norm: int, lstm_layer_norm_epsilon: int, lstm_dropout: int, joiner_activation: str) RNNT[source]

建構基於 Conformer 的遞迴神經網路轉換器 (RNN-T) 模型。

參數:
  • input_dim (int) – 傳遞給轉錄網路的輸入序列幀的維度。

  • encoding_dim (int) – 傳遞給聯合網路的轉錄網路和預測網路所產生的編碼的維度。

  • time_reduction_stride (int) – 減少輸入序列長度的因子。

  • conformer_input_dim (int) – Conformer 輸入的維度。

  • conformer_ffn_dim (int) – 每個 Conformer 層的 feedforward 網路的隱藏層維度。

  • conformer_num_layers (int) – 要實例化的 Conformer 層的數量。

  • conformer_num_heads (int) – 每個 Conformer 層中的注意力頭數量。

  • conformer_depthwise_conv_kernel_size (int) – 每個 Conformer 層的 depthwise 卷積層的 Kernel 大小。

  • conformer_dropout (float) – Conformer dropout 概率。

  • num_symbols (int) – 目標 token 集合的基數。

  • symbol_embedding_dim (int) – 每個目標 token 嵌入的維度。

  • num_lstm_layers (int) – 要實例化的 LSTM 層的數量。

  • lstm_hidden_dim (int) – 每個 LSTM 層的輸出維度。

  • lstm_layer_norm (bool) – 如果 True,則啟用 LSTM 層的層標準化。

  • lstm_layer_norm_epsilon (float) – 在 LSTM 層標準化層中使用的 epsilon 值。

  • lstm_dropout (float) – LSTM dropout 概率。

  • joiner_activation (str) – 在 joiner 中使用的激活函數。必須是 (“relu”, “tanh”) 之一。(預設值:“relu”)

  • Returns

    RNNT

    Conformer RNN-T 模型。

文件

存取 PyTorch 的完整開發者文件

檢視文件

教學文件

取得適用於初學者和進階開發者的深入教學課程

檢視教學課程

資源

尋找開發資源並取得問題解答

檢視資源