SlidingWindowCmn¶

class torchaudio.transforms.SlidingWindowCmn(cmn_window: int = 600, min_cmn_window: int = 100, center: bool = False, norm_vars: bool = False)[source]¶

對每個語音片段應用滑動視窗倒譜平均值 (以及可選的變異數) 正規化。

參數:

cmn_window (int, optional) – 執行平均 CMN 計算的視窗大小 (影格數) (int, 預設值 = 600)
min_cmn_window (int, optional) – 解碼開始時使用的最小 CMN 視窗大小 (僅在開始時增加延遲)。僅在 center == false 時適用，若 center==true 則忽略 (int, 預設值 = 100)
center (bool, optional) – 若為 true，則使用以目前影格為中心的視窗 (盡可能，取決於邊界效應)。若為 false，則視窗位於左側。(bool, 預設值 = false)
norm_vars (bool, optional) – 若為 true，則將變異數正規化為 1。(bool, 預設值 = false)

範例

>>> waveform, sample_rate = torchaudio.load("test.wav", normalize=True)
>>> transform = transforms.SlidingWindowCmn(cmn_window=1000)
>>> cmn_waveform = transform(waveform)

forward(specgram: Tensor) → Tensor[source]¶

參數:: specgram (Tensor) – 光譜圖張量，維度為 (…, time, freq)。
回傳:: 光譜圖張量，維度為 (…, time, freq)。
回傳類型:: Tensor

SlidingWindowCmn¶

文件

教學

資源