快捷方式

decode_image

torchvision.io.decode_image(input: Union[Tensor, str], mode: ImageReadMode = ImageReadMode.UNCHANGED, apply_exif_orientation: bool = False) Tensor[原始碼]

從路徑或原始編碼位元組將影像解碼為 uint8 張量。

目前支援的影像格式為 jpeg、png、gif 和 webp。

對於大多數情況,輸出張量的值為 uint8,範圍在 [0, 255] 之間。

如果影像是 16 位元的 png,則輸出張量為 uint16,範圍在 [0, 65535] 之間 (torchvision 0.21 開始支援)。由於 pytorch 中對 uint16 的支援有限,我們建議在此函數之後調用 torchvision.transforms.v2.functional.to_dtype() 並使用 scale=True,以將解碼後的影像轉換為 uint8 或 float 張量。

注意

decode_image() 尚不適用於 AVIF 或 HEIC 影像。對於這些格式,請直接調用 decode_avif()decode_heic()

參數:
  • input (Tensor 或 str 或 pathlib.Path) – 要解碼的影像。如果傳入的是 tensor,則必須是一維 uint8 tensor,其中包含影像的原始位元組。 否則,這必須是影像檔案的路徑。

  • mode (strImageReadMode) – 要將影像轉換成的模式,例如“RGB”。預設為“UNCHANGED”。 有關可用模式,請參閱 ImageReadMode

  • apply_exif_orientation (bool) – 將 EXIF 方向轉換應用於輸出 tensor。僅適用於 JPEG 和 PNG 影像。預設值:False。

Returns:

output (Tensor[image_channels, image_height, image_width])

使用 decode_image 的範例

Transforms v2 入門

Transforms v2 入門

將遮罩重新用於邊界框

將遮罩重新用於邊界框

Torchscript 支援

Torchscript 支援

可視化工具

可視化工具

文件

存取 PyTorch 的完整開發人員文件

查看文件

教學

取得適合初學者和高級開發人員的深入教學

查看教學

資源

尋找開發資源並取得問題解答

查看資源