torchaudio.save¶

torchaudio.save(uri: Union[BinaryIO, str, PathLike], src: Tensor, sample_rate: int, channels_first: bool = True, format: Optional[str] = None, encoding: Optional[str] = None, bits_per_sample: Optional[int] = None, buffer_size: int = 4096, backend: Optional[str] = None, compression: Optional[Union[CodecConfig, float, int]] = None)¶

將音訊資料儲存至檔案。

注意

此函式可以處理的格式取決於後端的可用性。請使用以下函式來獲取支援的格式。

FFmpeg: torchaudio.utils.ffmpeg_utils.get_audio_encoders()
Sox: torchaudio.utils.sox_utils.list_write_formats()
SoundFile: 請參考官方文件。

參數:

uri (str 或 pathlib.Path) – 音訊檔案路徑。
src (torch.Tensor) – 要儲存的音訊資料。必須是 2D 張量。
sample_rate (int) – 採樣率
channels_first (bool, optional) – 如果 True，則給定的張量會被解釋為 [channel, time]，否則為 [time, channel]。
format (str 或 None, optional) –
覆寫音訊格式。當 uri 參數是類路徑物件時，音訊格式會從檔案擴展名推斷。如果檔案擴展名遺失或不同，您可以使用此參數指定正確的格式。

當 uri 參數是類檔案物件時，則必須使用此參數。

有效值為 "wav"、"ogg" 和 "flac"。
encoding (str 或 None, optional) –
更改支援格式的編碼。此引數僅對支援的格式有效，即 "wav" 和 ""flac"`。有效值為
- "PCM_S" (帶符號整數線性 PCM)
- "PCM_U" (無符號整數線性 PCM)
- "PCM_F" (浮點 PCM)
- "ULAW" (mu-law)
- "ALAW" (a-law)
bits_per_sample (int 或 None, 選填) – 變更支援格式的位元深度。當 format 為 "wav" 和 "flac" 其中之一時，您可以變更位元深度。有效值為 8、16、24、32 和 64。
buffer_size (int, 選填) – 處理類檔案物件時使用的緩衝區大小，單位為位元組。(預設值：4096)
backend (str 或 None, 選填) –
要使用的 I/O 後端。如果 None，函式會根據輸入和可用的後端選擇後端。否則，必須是 ["ffmpeg", "sox", "soundfile"] 其中之一，並且對應的後端必須可用。(預設值：None)

另請參閱

後端和調度器 (Backend and Dispatcher)
compression (CodecConfig, float, int, 或 None, 選填) –
要套用的壓縮設定。

如果選擇的後端是 FFmpeg，則必須提供 CodecConfig 的實例。

否則，如果選擇的後端是 SoX，則必須提供一個浮點數或整數值，對應於 sox 命令列介面的選項 -C。例如

"mp3"
位元率（單位為 kbps）以及品質因數，例如 128.2，或具有品質因數的 VBR 編碼，例如 -4.2。預設值：-4.5。

"flac"
從 0 到 8 的整數。8 是預設值，也是最高的壓縮率。

"ogg"、"vorbis"
從 -1 到 10 的數字；-1 是最高的壓縮率和最低的品質。預設值：3。

有關更多詳細信息，請參閱 http://sox.sourceforge.net/soxformat.html。

使用 save 的教學課程: 音訊 I/O

音訊 I/O

torchaudio.save¶

文件

教學

資源