torchaudio.compliance.kaldi.mfcc¶

torchaudio.compliance.kaldi.mfcc(waveform: Tensor, blackman_coeff: float = 0.42, cepstral_lifter: float = 22.0, channel: int = -1, dither: float = 0.0, energy_floor: float = 1.0, frame_length: float = 25.0, frame_shift: float = 10.0, high_freq: float = 0.0, htk_compat: bool = False, low_freq: float = 20.0, num_ceps: int = 13, min_duration: float = 0.0, num_mel_bins: int = 23, preemphasis_coefficient: float = 0.97, raw_energy: bool = True, remove_dc_offset: bool = True, round_to_power_of_two: bool = True, sample_frequency: float = 16000.0, snip_edges: bool = True, subtract_mean: bool = False, use_energy: bool = False, vtln_high: float = -500.0, vtln_low: float = 100.0, vtln_warp: float = 1.0, window_type: str = 'povey') → Tensor[原始碼]¶

從原始音訊訊號建立 mfcc。這與 Kaldi 的 compute-mfcc-feats 的輸入/輸出相符。

參數:

waveform (Tensor) – 大小為 (c, n) 的音訊張量，其中 c 的範圍為 [0,2)
blackman_coeff (float, optional) – 廣義 Blackman 視窗的常數係數。（預設值：0.42）
cepstral_lifter (float, optional) – 控制 MFCC 縮放的常數（預設值：22.0）
channel (int, optional) – 要提取的通道 (-1 -> 預期為單聲道, 0 -> 左聲道, 1 -> 右聲道)（預設值：-1）
dither (float, optional) – 抖動常數（0.0 表示無抖動）。如果您關閉此選項，則應設定 energy_floor 選項，例如設定為 1.0 或 0.1（預設值：0.0）
energy_floor (float, optional) – Spectrogram 計算中能量的下限（絕對值，而非相對值）。注意：此下限適用於代表總訊號能量的第零個分量。個別 spectrogram 元素的下限固定為 std::numeric_limits<float>::epsilon()。（預設值：1.0）
frame_length (float, optional) – 幀長度，單位為毫秒（預設值：25.0）
frame_shift (float, optional) – 幀移，單位為毫秒（預設值：10.0）
high_freq (float, optional) – mel bins 的高截止頻率（如果 <= 0，則從 Nyquist 偏移）（預設值：0.0）
htk_compat (bool, optional) – 如果為 true，則將能量放在最後。警告：不足以獲得 HTK 相容的功能（需要更改其他參數）。（預設值：False）
low_freq (float, optional) – mel bins 的低截止頻率（預設值：20.0）
num_ceps (int, optional) – MFCC 計算中的 cepstra 數量（包括 C0）（預設值：13）
min_duration (float, optional) – 要處理的片段的最小持續時間（以秒為單位）。（預設值：0.0）
num_mel_bins (int, optional) – 三角形 mel 頻率 bins 的數量（預設值：23）
preemphasis_coefficient (float, optional) – 用於訊號預加重的係數（預設值：0.97）
raw_energy (bool, optional) – 如果為 True，則在預加重和視窗化之前計算能量（預設值：True）
remove_dc_offset (bool, optional) – 從每個幀上的波形中減去均值（預設值：True）
round_to_power_of_two (bool, optional) – 如果為 True，則通過將 FFT 的輸入零填充到二的冪次方來將視窗大小四捨五入為二的冪次方。（預設值：True）
sample_frequency (float, optional) – 波形數據採樣頻率（必須與波形檔案匹配，如果在那裡指定的話）（預設值：16000.0）
snip_edges (bool, optional) – 如果為 True，則通過僅輸出完全適合檔案的幀來處理邊緣效應，並且幀數取決於 frame_length。如果為 False，則幀數僅取決於 frame_shift，並且我們在末端反射數據。（預設值：True）
subtract_mean (bool, optional) – 減去每個特徵檔案的均值 [CMS]；不建議以這種方式執行。（預設值：False）
use_energy (bool, optional) – 為 FBANK 輸出添加一個額外的能量維度。（預設值：False）
vtln_high (float, optional) – 分段線性 VTLN 扭曲函數中的高拐點（如果為負數，則從 high-mel-freq 偏移（預設值：-500.0）
vtln_low (float, optional) – 分段線性 VTLN 扭曲函數中的低拐點（預設值：100.0）
vtln_warp (float, optional) – Vtln 扭曲因子（僅在未指定 vtln_map 時適用）（預設值：1.0）
window_type (str, optional) – 視窗類型 ('hamming'|'hanning'|'povey'|'rectangular'|'blackman')（預設值："povey"）

返回:

與 Kaldi 輸出的 mfcc 相同。形狀為 (m, num_ceps)，其中 m 在 _get_strided 中計算

返回類型:

Tensor

torchaudio.compliance.kaldi.mfcc¶

文件

教學

資源