CUDA 環境變數¶

有關 CUDA 執行階段環境變數的更多資訊，請參閱CUDA 環境變數。

PyTorch 環境變數

變數	描述
`PYTORCH_NO_CUDA_MEMORY_CACHING`	如果設定為 `1`，則停用 CUDA 中記憶體配置的快取。這對於除錯很有用。
`PYTORCH_CUDA_ALLOC_CONF`	有關此環境變數的更深入說明，請參閱記憶體管理。
`PYTORCH_NVML_BASED_CUDA_CHECK`	如果設定為 `1`，在匯入檢查 CUDA 是否可用的 PyTorch 模組之前，PyTorch 將使用 NVML 檢查 CUDA 驅動程式是否正常運作，而不是使用 CUDA 執行階段。這對於已分叉的進程因 CUDA 初始化錯誤而失敗的情況很有用。
`TORCH_CUDNN_V8_API_LRU_CACHE_LIMIT`	cuDNN v8 API 的快取限制。這用於限制 cuDNN v8 API 使用的記憶體。預設值為 10000，假設每個 ExecutionPlan 為 200KiB，則大約相當於 2GiB。設定為 `0` 表示沒有限制，或設定為負值表示不快取。
`TORCH_CUDNN_V8_API_DISABLED`	如果設定為 `1`，則停用 cuDNN v8 API。並將退回到 cuDNN v7 API。
`TORCH_ALLOW_TF32_CUBLAS_OVERRIDE`	若設定為 `1`，強制啟用 TF32，覆寫 `set_float32_matmul_precision` 設定。
`TORCH_NCCL_USE_COMM_NONBLOCKING`	若設定為 `1`，啟用 NCCL 中的非同步錯誤處理。
`TORCH_NCCL_AVOID_RECORD_STREAMS`	若設定為 `0`，啟用 NCCL 中基於 record streams 的同步行為的備用方案。
`TORCH_CUDNN_V8_API_DEBUG`	若設定為 `1`，進行健全性檢查，確認是否正在使用 cuDNN V8。

CUDA 執行時期與函式庫環境變數

變數	描述
`CUDA_VISIBLE_DEVICES`	以逗號分隔的 GPU 裝置 ID 清單，這些裝置 ID 應提供給 CUDA 執行時期使用。若設定為 `-1`，則不提供任何 GPU。
`CUDA_LAUNCH_BLOCKING`	若設定為 `1`，使 CUDA 呼叫同步。這對於偵錯很有用。
`CUBLAS_WORKSPACE_CONFIG`	此環境變數用於設定每個分配的 cuBLAS 工作區配置。格式為 `:[SIZE]:[COUNT]`。例如，每個分配的預設工作區大小為 `CUBLAS_WORKSPACE_CONFIG=:4096:2:16:8`，它指定總大小為 `2 * 4096 + 8 * 16 KiB`。要強制 cuBLAS 避免使用工作區，請設定 `CUBLAS_WORKSPACE_CONFIG=:0:0`。
`CUDNN_CONV_WSCAP_DBG`	與 `CUBLAS_WORKSPACE_CONFIG` 類似，此環境變數用於設定每個分配的 cuDNN 工作區配置。
`CUBLASLT_WORKSPACE_SIZE`	與 `CUBLAS_WORKSPACE_CONFIG` 類似，此環境變數用於設定 cuBLASLT 的工作區大小。
`CUDNN_ERRATA_JSON_FILE`	可以設定為錯誤修正篩選器的檔案路徑，該篩選器可以傳遞給 cuDNN，以避免特定的引擎配置，主要用於偵錯或硬編碼自動調整。
`NVIDIA_TF32_OVERRIDE`	若設定為 `0`，則會在所有核心中全域停用 TF32，覆寫所有 PyTorch 設定。

文件