SpeedPerturbation¶

class torchaudio.transforms.SpeedPerturbation(orig_freq: int, factors: Sequence[float])[source]¶

應用在語音辨識的音訊擴增 [Ko et al., 2015] 中介紹的速度擾動擴增。對於給定的輸入，此模組從 factors 中均勻隨機取樣一個加速因子，並按該因子調整輸入的速度。

參數:

orig_freq (int) – waveform 中訊號的原始頻率。
factors (Sequence[float]) – 調整輸入速度的因子。大於 1.0 的值會壓縮 waveform 的時間，而小於 1.0 的值會拉伸 waveform 的時間。

範例

>>> speed_perturb = SpeedPerturbation(16000, [0.9, 1.1, 1.0, 1.0, 1.0])
>>> # waveform speed will be adjusted by factor 0.9 with 20% probability,
>>> # 1.1 with 20% probability, and 1.0 (i.e. kept the same) with 60% probability.
>>> speed_perturbed_waveform = speed_perturb(waveform, lengths)

forward(waveform: Tensor, lengths: Optional[Tensor] = None) → Tuple[Tensor, Optional[Tensor]][source]¶

參數:

waveform (torch.Tensor) – 輸入訊號，形狀為 (…, time)。
lengths (torch.Tensor 或 None, optional) – waveform 中訊號的有效長度，形狀為 (…)。如果 None，則 waveform 中的所有元素都視為有效。（預設：None）

返回:

torch.Tensor: 速度調整後的波形，形狀為 (…, new_time)。
torch.Tensor 或 None: 如果 lengths 不是 None，則為速度調整後波形中訊號的有效長度，形狀為 (…)；否則為 None。

返回類型:

(torch.Tensor, torch.Tensor 或 None)

SpeedPerturbation¶

文件

教學

資源