torchaudio.compliance.kaldi.mfcc¶
- torchaudio.compliance.kaldi.mfcc(waveform: Tensor, blackman_coeff: float = 0.42, cepstral_lifter: float = 22.0, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, num_ceps: int = 13, min_duration: float = 0.0, num_mel_bins: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sample_frequency: float = 16000.0, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') Tensor [原始碼]¶
從原始音訊訊號建立 mfcc。這與 Kaldi 的 compute-mfcc-feats 的輸入/輸出相符。
- 參數:
waveform (Tensor) – 大小為 (c, n) 的音訊張量,其中 c 的範圍為 [0,2)
blackman_coeff (float, optional) – 廣義 Blackman 視窗的常數係數。(預設值:
0.42
)cepstral_lifter (float, optional) – 控制 MFCC 縮放的常數(預設值:
22.0
)channel (int, optional) – 要提取的通道 (-1 -> 預期為單聲道, 0 -> 左聲道, 1 -> 右聲道)(預設值:
-1
)dither (float, optional) – 抖動常數(0.0 表示無抖動)。如果您關閉此選項,則應設定 energy_floor 選項,例如設定為 1.0 或 0.1(預設值:
0.0
)energy_floor (float, optional) – Spectrogram 計算中能量的下限(絕對值,而非相對值)。注意:此下限適用於代表總訊號能量的第零個分量。個別 spectrogram 元素的下限固定為 std::numeric_limits<float>::epsilon()。(預設值:
1.0
)frame_length (float, optional) – 幀長度,單位為毫秒(預設值:
25.0
)frame_shift (float, optional) – 幀移,單位為毫秒(預設值:
10.0
)high_freq (float, optional) – mel bins 的高截止頻率(如果 <= 0,則從 Nyquist 偏移)(預設值:
0.0
)htk_compat (bool, optional) – 如果為 true,則將能量放在最後。警告:不足以獲得 HTK 相容的功能(需要更改其他參數)。(預設值:
False
)low_freq (float, optional) – mel bins 的低截止頻率(預設值:
20.0
)num_ceps (int, optional) – MFCC 計算中的 cepstra 數量(包括 C0)(預設值:
13
)min_duration (float, optional) – 要處理的片段的最小持續時間(以秒為單位)。(預設值:
0.0
)num_mel_bins (int, optional) – 三角形 mel 頻率 bins 的數量(預設值:
23
)preemphasis_coefficient (float, optional) – 用於訊號預加重的係數(預設值:
0.97
)raw_energy (bool, optional) – 如果為 True,則在預加重和視窗化之前計算能量(預設值:
True
)remove_dc_offset (bool, optional) – 從每個幀上的波形中減去均值(預設值:
True
)round_to_power_of_two (bool, optional) – 如果為 True,則通過將 FFT 的輸入零填充到二的冪次方來將視窗大小四捨五入為二的冪次方。(預設值:
True
)sample_frequency (float, optional) – 波形數據採樣頻率(必須與波形檔案匹配,如果在那裡指定的話)(預設值:
16000.0
)snip_edges (bool, optional) – 如果為 True,則通過僅輸出完全適合檔案的幀來處理邊緣效應,並且幀數取決於 frame_length。如果為 False,則幀數僅取決於 frame_shift,並且我們在末端反射數據。(預設值:
True
)subtract_mean (bool, optional) – 減去每個特徵檔案的均值 [CMS];不建議以這種方式執行。(預設值:
False
)use_energy (bool, optional) – 為 FBANK 輸出添加一個額外的能量維度。(預設值:
False
)vtln_high (float, optional) – 分段線性 VTLN 扭曲函數中的高拐點(如果為負數,則從 high-mel-freq 偏移(預設值:
-500.0
)vtln_low (float, optional) – 分段線性 VTLN 扭曲函數中的低拐點(預設值:
100.0
)vtln_warp (float, optional) – Vtln 扭曲因子(僅在未指定 vtln_map 時適用)(預設值:
1.0
)window_type (str, optional) – 視窗類型 ('hamming'|'hanning'|'povey'|'rectangular'|'blackman')(預設值:
"povey"
)
- 返回:
與 Kaldi 輸出的 mfcc 相同。形狀為 (m,
num_ceps
),其中 m 在 _get_strided 中計算- 返回類型:
Tensor