本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
執行具有模型平行的 SageMaker 分散式訓練任務
了解如何使用 SageMaker Python SDK 搭配 SageMaker 模型平行程式庫,針對您自己的訓練指令碼執行模型平行訓練任務。
執行 SageMaker 訓練任務有三種使用案例。
-
您可以使用其中一個預先建置的 AWS TensorFlow 和 PyTorch 深度學習容器。如果您是首次使用模型平行程式庫,則建議您使用此選項。若要尋找如何執行 SageMaker 模型平行訓練任務的教學課程,請參閱使用 Amazon SageMaker AI 模型平行處理程式庫進行 PyTorch 訓練
的範例筆記本。 -
您也可以擴充預先建置的容器,為您的演算法或預先建置 SageMaker Docker 映像不支援的模型處理任何額外的功能要求。若要尋找如何擴充預先建置容器的範例,請參閱延伸預先建置的容器。
-
您可以使用 SageMaker Training 工具組,調整自己的 Docker 容器來使用 SageMaker
AI。有關範例,請參閱調整您自己的訓練容器。
如需上述清單中的選項 2 和 3 的說明,請參閱擴充包含 SageMaker 分散式模型平行程式庫的預先建置 Docker 容器,了解如何在擴充或自訂 Docker 容器中安裝模型平行程式庫。
在所有情況下,您都可以啟動訓練任務組態,設定 SageMaker TensorFlow
或 PyTorch
估算器以啟動程式庫。如需詳細資訊,請參閱下列主題。