Video MViT¶

模型建構器¶

以下模型建構器可用於實例化 MViT v1 或 v2 模型，無論有無預先訓練的權重。所有模型建構器都在內部依賴 torchvision.models.video.MViT 基底類別。請參考原始碼以取得關於這個類別的更多詳細資訊。

`mvit_v1_b`(*[, weights, progress])	從 Multiscale Vision Transformers 建構一個基本的 MViTV1 架構。
`mvit_v2_s`(*[, weights, progress])	從 Multiscale Vision Transformers 和 MViTv2: Improved Multiscale Vision Transformers for Classification and Detection 建構一個小的 MViTV2 架構。