torchaudio.functional.sliding_window_cmn¶
- torchaudio.functional.sliding_window_cmn(specgram: Tensor, cmn_window: int = 600, min_cmn_window: int = 100, center: bool = False, norm_vars: bool = False) Tensor [來源]¶
對每個語音套用滑動視窗倒譜平均值 (並可選擇性地套用變異數) 正規化。
- 參數:
specgram (Tensor) – 維度為 (…, time, freq) 的頻譜圖 Tensor
cmn_window (int, optional) – 用於執行平均 CMN 計算的視窗(以影格為單位) (int, default = 600)
min_cmn_window (int, optional) – 解碼開始時使用的最小 CMN 視窗(僅在開始時增加延遲)。僅在 center == false 時適用,如果 center == true 則忽略 (int, default = 100)
center (bool, optional) – 如果為 true,則使用以目前影格為中心的視窗(在可能的範圍內,取決於結束效果)。如果為 false,則視窗位於左側。 (bool, default = false)
norm_vars (bool, optional) – 如果為 true,則將變異數正規化為 1。(bool,預設值 = false)
- 回傳值:
符合輸入形狀的 Tensor (…, freq, time)
- 回傳類型:
Tensor