torchaudio.info¶

torchaudio.info(uri: Union[BinaryIO, str, PathLike], format: Optional[str] = None, buffer_size: int = 4096, backend: Optional[str] = None) → AudioMetaData¶

取得音訊檔案的訊號資訊。

注意

當輸入類型為類檔案物件時，此函式無法取得某些格式（例如 vorbis）的正確長度（num_samples）。在這種情況下，num_samples 的值為 0。

參數:

uri (類路徑物件 或 類檔案物件) –
音訊資料的來源。接受以下類型
- path-like：檔案路徑或 URL。
- file-like：具有 read(size: int) -> bytes 方法的物件，該方法傳回最多 size 長度的位元組字串。
format (str 或 None, 選用) – 如果不是 None，則解釋為提示，允許後端覆寫偵測到的格式。（預設：None）
buffer_size (int, 選用) – 處理類檔案物件時要使用的緩衝區大小，以位元組為單位。（預設：4096）
backend (str 或 None, 選用) –
要使用的 I/O 後端。如果 None，函式會根據輸入和可用的後端選擇後端。否則，必須是 ["ffmpeg"、"sox"、"soundfile"] 之一，並且具有相應的可用後端。（預設：None）

另請參閱

後端和調度器

傳回:

AudioMetaData

支援結構¶

class torchaudio.AudioMetaData[source]¶

torchaudio.info 函式的傳回類型。

變數:

sample_rate (int) – 取樣率
num_frames (int) – 幀數
num_channels (int) – 頻道數
bits_per_sample (int) – 每個取樣的位元數。對於有損格式，或無法準確推斷時，此值為 0。
encoding (str) –
音訊編碼 encoding 可能採用的值為以下之一
- PCM_S：帶正負號整數線性 PCM
- PCM_U：無正負號整數線性 PCM
- PCM_F：浮點數線性 PCM
- FLAC：Flac，免費無損音訊編碼
- ULAW：Mu-law
- ALAW：A-law
- MP3：MP3，MPEG-1 Audio Layer III
- VORBIS：OGG Vorbis
- AMR_WB：Adaptive Multi-Rate Wideband
- AMR_NB：Adaptive Multi-Rate Narrowband
- OPUS：Opus
- HTK：單聲道 16 位元 PCM
- UNKNOWN：以上皆非