簡介 || 什麼是 DDP || 單節點多 GPU 訓練 || 容錯 || 多節點訓練 || minGPT 訓練
PyTorch 中的分散式數據平行 - 影片教學¶
建立於: 2022 年 9 月 27 日 | 最後更新: 2024 年 11 月 15 日 | 最後驗證: 2024 年 11 月 05 日
請觀看下面的影片或在 youtube 上觀看。
此系列影片教學將引導您透過 DDP 在 PyTorch 中進行分散式訓練。
此系列從一個簡單的非分散式訓練工作開始,到在叢集中跨多台機器部署訓練工作結束。 在此過程中,您還將了解 torchrun 以實現容錯的分散式訓練。
本教學假設您對 PyTorch 中的模型訓練有基本的了解。
執行程式碼¶
您將需要多個 CUDA GPU 才能執行本教學程式碼。 通常,這可以在具有多個 GPU 的雲實例上完成(本教學使用具有 4 個 GPU 的 Amazon EC2 P3 實例)。
本教學程式碼託管在此 github repo 中。 克隆儲存庫並跟著操作!
教學章節¶
簡介(本頁)
什麼是 DDP? 輕輕地介紹了 DDP 在幕後所做的事情
單節點多 GPU 訓練 在單台機器上使用多個 GPU 訓練模型
容錯分散式訓練 使用 torchrun 使您的分散式訓練工作更加穩健
多節點訓練 使用多台機器上的多個 GPU 訓練模型
使用 DDP 訓練 GPT 模型 使用 DDP 訓練 minGPT 模型的「真實世界」範例