快捷方式

Video MViT

MViT 模型基於 MViTv2: Improved Multiscale Vision Transformers for Classification and DetectionMultiscale Vision Transformers 論文。

模型建構器

以下模型建構器可用於實例化 MViT v1 或 v2 模型,無論有無預先訓練的權重。所有模型建構器都在內部依賴 torchvision.models.video.MViT 基底類別。請參考 原始碼 以取得關於這個類別的更多詳細資訊。

mvit_v1_b(*[, weights, progress])

Multiscale Vision Transformers 建構一個基本的 MViTV1 架構。

mvit_v2_s(*[, weights, progress])

Multiscale Vision TransformersMViTv2: Improved Multiscale Vision Transformers for Classification and Detection 建構一個小的 MViTV2 架構。

文件

存取 PyTorch 的完整開發者文件

檢視文件

教學

取得初學者和進階開發人員的深入教學

檢視教學

資源

尋找開發資源並獲得問題解答

檢視資源