捷徑

torchaudio.compliance.kaldi.spectrogram

torchaudio.compliance.kaldi.spectrogram(waveform: Tensor, blackman_coeff: float = 0.42, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, min_duration: float = 0.0, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sample_frequency: float = 16000.0, snip_edges: bool = True, subtract_mean: bool = False, window_type: str = 'povey') Tensor[source]

從原始音訊訊號建立頻譜圖。這會匹配 Kaldi 的 compute-spectrogram-feats 的輸入/輸出。

參數:
  • waveform (Tensor) – 大小為 (c, n) 的音訊 Tensor,其中 c 的範圍為 [0,2)

  • blackman_coeff (float, optional) – 廣義 Blackman 視窗的常數係數。(預設值: 0.42)

  • channel (int, optional) – 要提取的聲道 (-1 -> 預期為單聲道, 0 -> 左聲道, 1 -> 右聲道) (預設值: -1)

  • dither (float, optional) – 抖動常數 (0.0 表示不抖動)。如果關閉此選項,則應設定 energy_floor 選項,例如 1.0 或 0.1 (預設值: 0.0)

  • energy_floor (float, optional) – 頻譜圖計算中能量的下限(絕對值,非相對值)。注意:此下限適用於第零個分量,表示總訊號能量。個別頻譜圖元素的下限固定為 std::numeric_limits<float>::epsilon()。(預設值: 1.0)

  • frame_length (float, optional) – 幀長度(以毫秒為單位)(預設值: 25.0)

  • frame_shift (float, optional) – 幀偏移量(以毫秒為單位)(預設值: 10.0)

  • min_duration (float, optional) – 要處理的片段的最小持續時間(以秒為單位)。(預設值: 0.0)

  • preemphasis_coefficient (float, optional) – 用於訊號預加重的係數 (預設值: 0.97)

  • raw_energy (bool, optional) – 如果為 True,則在預加重和視窗化之前計算能量 (預設值: True)

  • remove_dc_offset (bool, optional) – 從每個影格的波形中減去平均值 (預設值: True)

  • round_to_power_of_two (bool, optional) – 如果為 True,則透過對 FFT 的輸入進行零填充,將視窗大小四捨五入為 2 的冪次方。(預設值: True)

  • sample_frequency (float, optional) – 波形資料取樣頻率 (必須與波形檔案相符,如果該檔案中有指定) (預設值: 16000.0)

  • snip_edges (bool, optional) – 如果為 True,則邊緣效應將透過僅輸出完全適合該檔案的影格來處理,並且影格的數量取決於 frame_length。 如果為 False,則影格的數量僅取決於 frame_shift,並且我們會在末端反映資料。(預設值: True)

  • subtract_mean (bool, optional) – 減去每個特徵檔案的平均值 [CMS]; 不建議這樣做。(預設值: False)

  • window_type (str, optional) – 視窗類型 ('hamming'|'hanning'|'povey'|'rectangular'|'blackman') (預設值: 'povey')

傳回:

與 Kaldi 輸出的 spectrogram 相同。 形狀為 (m, padded_window_size // 2 + 1),其中 m 在 _get_strided 中計算

傳回類型:

Tensor

文件

存取 PyTorch 的完整開發人員文件

檢視文件

教學

取得適合初學者和進階開發人員的深入教學課程

檢視教學課程

資源

尋找開發資源並獲得問題解答

檢視資源