PyTorch 中的分散式數據平行 - 影片教學¶

建立於: 2022 年 9 月 27 日 | 最後更新: 2024 年 11 月 15 日 | 最後驗證: 2024 年 11 月 05 日

請觀看下面的影片或在 youtube 上觀看。

此系列影片教學將引導您透過 DDP 在 PyTorch 中進行分散式訓練。

此系列從一個簡單的非分散式訓練工作開始，到在叢集中跨多台機器部署訓練工作結束。在此過程中，您還將了解 torchrun 以實現容錯的分散式訓練。

本教學假設您對 PyTorch 中的模型訓練有基本的了解。

執行程式碼¶

您將需要多個 CUDA GPU 才能執行本教學程式碼。通常，這可以在具有多個 GPU 的雲實例上完成（本教學使用具有 4 個 GPU 的 Amazon EC2 P3 實例）。

本教學程式碼託管在此 github repo 中。克隆儲存庫並跟著操作！