快捷方式

s3d

torchvision.models.video.s3d(*, weights: Optional[S3D_Weights] = None, progress: bool = True, **kwargs: Any) S3D[原始碼]

建構可分離的 3D CNN 模型。

參考文獻:重新思考時空特徵學習

警告

影片模組處於 Beta 階段,不保證向後相容性。

參數:
  • weights (S3D_Weights, optional) – 要使用的預先訓練權重。 有關更多詳細資訊和可能的值,請參閱下面的 S3D_Weights。 預設情況下,不使用預先訓練的權重。

  • progress (bool) – 如果為 True,則在 stderr 顯示下載的進度列。 預設值為 True。

  • **kwargs – 傳遞到 torchvision.models.video.S3D 基礎類別的參數。 有關此類的更多詳細資訊,請參閱 原始碼

class torchvision.models.video.S3D_Weights(value)[原始碼]

上述模型建構器接受以下數值作為 weights 參數。 S3D_Weights.DEFAULT 等同於 S3D_Weights.KINETICS400_V1。您也可以使用字串,例如 weights='DEFAULT'weights='KINETICS400_V1'

S3D_Weights.KINETICS400_V1:

這些權重旨在近似論文中的準確度。這些準確度是在片段層級上估算的,參數為 frame_rate=15clips_per_video=1clip_len=128。 也可作為 S3D_Weights.DEFAULT 使用。

acc@1 (在 Kinetics-400 上)

68.368

acc@5 (在 Kinetics-400 上)

88.05

min_size

height=224, width=224

min_temporal_size

14

categories

abseiling, air drumming, answering questions, … (省略 397 個)

recipe

link

num_params

8320048

GFLOPS

17.98

File size

32.0 MB

推論轉換可在 S3D_Weights.KINETICS400_V1.transforms 中找到,並執行以下預處理操作:接受批次的 (B, T, C, H, W) 和單個 (T, C, H, W) 視訊影格 torch.Tensor 物件。 使用 interpolation=InterpolationMode.BILINEAR 將影格大小調整為 resize_size=[256, 256],然後進行 crop_size=[224, 224] 的中心裁剪。 最後,先將值重新縮放到 [0.0, 1.0],然後使用 mean=[0.43216, 0.394666, 0.37645]std=[0.22803, 0.22145, 0.216989] 進行正規化。 最後,輸出維度會置換為 (..., C, T, H, W) 張量。

文件

取得 PyTorch 的完整開發者文件

檢視文件

教學

取得針對初學者和進階開發者的深入教學

檢視教學

資源

尋找開發資源並獲得您問題的解答

檢視資源