Video MViT¶
MViT 模型基於 MViTv2: Improved Multiscale Vision Transformers for Classification and Detection 和 Multiscale Vision Transformers 論文。
模型建構器¶
以下模型建構器可用於實例化 MViT v1 或 v2 模型,無論有無預先訓練的權重。所有模型建構器都在內部依賴 torchvision.models.video.MViT
基底類別。請參考 原始碼 以取得關於這個類別的更多詳細資訊。
|
從 Multiscale Vision Transformers 建構一個基本的 MViTV1 架構。 |
|
從 Multiscale Vision Transformers 和 MViTv2: Improved Multiscale Vision Transformers for Classification and Detection 建構一個小的 MViTV2 架構。 |