捷徑

torchaudio.info

torchaudio.info(uri: Union[BinaryIO, str, PathLike], format: Optional[str] = None, buffer_size: int = 4096, backend: Optional[str] = None) AudioMetaData

取得音訊檔案的訊號資訊。

注意

當輸入類型為類檔案物件時,此函式無法取得某些格式(例如 vorbis)的正確長度(num_samples)。在這種情況下,num_samples 的值為 0

參數:
  • uri (類路徑物件類檔案物件) –

    音訊資料的來源。接受以下類型

    • path-like:檔案路徑或 URL。

    • file-like:具有 read(size: int) -> bytes 方法的物件,該方法傳回最多 size 長度的位元組字串。

  • format (strNone, 選用) – 如果不是 None,則解釋為提示,允許後端覆寫偵測到的格式。(預設:None

  • buffer_size (int, 選用) – 處理類檔案物件時要使用的緩衝區大小,以位元組為單位。(預設:4096

  • backend (strNone, 選用) –

    要使用的 I/O 後端。如果 None,函式會根據輸入和可用的後端選擇後端。否則,必須是 ["ffmpeg""sox""soundfile"] 之一,並且具有相應的可用後端。(預設:None

    另請參閱

    後端和調度器

傳回:

AudioMetaData

使用 info 的教學課程
Audio I/O

音訊 I/O

音訊 I/O

支援結構

AudioMetaData

class torchaudio.AudioMetaData[source]

torchaudio.info 函式的傳回類型。

變數:
  • sample_rate (int) – 取樣率

  • num_frames (int) – 幀數

  • num_channels (int) – 頻道數

  • bits_per_sample (int) – 每個取樣的位元數。對於有損格式,或無法準確推斷時,此值為 0。

  • encoding (str) –

    音訊編碼 encoding 可能採用的值為以下之一

    • PCM_S:帶正負號整數線性 PCM

    • PCM_U:無正負號整數線性 PCM

    • PCM_F:浮點數線性 PCM

    • FLAC:Flac,免費無損音訊編碼

    • ULAW:Mu-law

    • ALAW:A-law

    • MP3:MP3,MPEG-1 Audio Layer III

    • VORBIS:OGG Vorbis

    • AMR_WB:Adaptive Multi-Rate Wideband

    • AMR_NB:Adaptive Multi-Rate Narrowband

    • OPUS:Opus

    • HTK:單聲道 16 位元 PCM

    • UNKNOWN:以上皆非

使用 AudioMetaData 的教學課程
Audio I/O

音訊 I/O

音訊 I/O

文件

存取 PyTorch 的完整開發人員文件

檢視文件

教學

取得初學者和進階開發人員的深入教學課程

檢視教學課程

資源

尋找開發資源並獲得問題解答

檢視資源