CUDA 環境變數
有關 CUDA 執行階段環境變數的更多資訊,請參閱CUDA 環境變數。
PyTorch 環境變數
變數 |
描述 |
PYTORCH_NO_CUDA_MEMORY_CACHING
|
如果設定為 1 ,則停用 CUDA 中記憶體配置的快取。 這對於除錯很有用。 |
PYTORCH_CUDA_ALLOC_CONF
|
有關此環境變數的更深入說明,請參閱記憶體管理。 |
PYTORCH_NVML_BASED_CUDA_CHECK
|
如果設定為 1 ,在匯入檢查 CUDA 是否可用的 PyTorch 模組之前,PyTorch 將使用 NVML 檢查 CUDA 驅動程式是否正常運作,而不是使用 CUDA 執行階段。 這對於已分叉的進程因 CUDA 初始化錯誤而失敗的情況很有用。 |
TORCH_CUDNN_V8_API_LRU_CACHE_LIMIT
|
cuDNN v8 API 的快取限制。 這用於限制 cuDNN v8 API 使用的記憶體。 預設值為 10000,假設每個 ExecutionPlan 為 200KiB,則大約相當於 2GiB。 設定為 0 表示沒有限制,或設定為負值表示不快取。 |
TORCH_CUDNN_V8_API_DISABLED
|
如果設定為 1 ,則停用 cuDNN v8 API。 並將退回到 cuDNN v7 API。 |
TORCH_ALLOW_TF32_CUBLAS_OVERRIDE
|
若設定為 1 ,強制啟用 TF32,覆寫 set_float32_matmul_precision 設定。 |
TORCH_NCCL_USE_COMM_NONBLOCKING
|
若設定為 1 ,啟用 NCCL 中的非同步錯誤處理。 |
TORCH_NCCL_AVOID_RECORD_STREAMS
|
若設定為 0 ,啟用 NCCL 中基於 record streams 的同步行為的備用方案。 |
TORCH_CUDNN_V8_API_DEBUG
|
若設定為 1 ,進行健全性檢查,確認是否正在使用 cuDNN V8。 |
CUDA 執行時期與函式庫環境變數
變數 |
描述 |
CUDA_VISIBLE_DEVICES
|
以逗號分隔的 GPU 裝置 ID 清單,這些裝置 ID 應提供給 CUDA 執行時期使用。若設定為 -1 ,則不提供任何 GPU。 |
CUDA_LAUNCH_BLOCKING
|
若設定為 1 ,使 CUDA 呼叫同步。 這對於偵錯很有用。 |
CUBLAS_WORKSPACE_CONFIG
|
此環境變數用於設定每個分配的 cuBLAS 工作區配置。 格式為 :[SIZE]:[COUNT] 。 例如,每個分配的預設工作區大小為 CUBLAS_WORKSPACE_CONFIG=:4096:2:16:8 ,它指定總大小為 2 * 4096 + 8 * 16 KiB 。 要強制 cuBLAS 避免使用工作區,請設定 CUBLAS_WORKSPACE_CONFIG=:0:0 。 |
CUDNN_CONV_WSCAP_DBG
|
與 CUBLAS_WORKSPACE_CONFIG 類似,此環境變數用於設定每個分配的 cuDNN 工作區配置。 |
CUBLASLT_WORKSPACE_SIZE
|
與 CUBLAS_WORKSPACE_CONFIG 類似,此環境變數用於設定 cuBLASLT 的工作區大小。 |
CUDNN_ERRATA_JSON_FILE
|
可以設定為錯誤修正篩選器的檔案路徑,該篩選器可以傳遞給 cuDNN,以避免特定的引擎配置,主要用於偵錯或硬編碼自動調整。 |
NVIDIA_TF32_OVERRIDE
|
若設定為 0 ,則會在所有核心中全域停用 TF32,覆寫所有 PyTorch 設定。 |