執行具有模型平行的 SageMaker 分散式訓練任務 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

執行具有模型平行的 SageMaker 分散式訓練任務

了解如何使用 SageMaker Python SDK 搭配 SageMaker 模型平行程式庫,針對您自己的訓練指令碼執行模型平行訓練任務。

執行 SageMaker 訓練任務有三種使用案例。

  1. 您可以使用其中一個預先建置的 AWS TensorFlow 和 PyTorch 深度學習容器。如果您是首次使用模型平行程式庫,則建議您使用此選項。若要尋找如何執行 SageMaker 模型平行訓練任務的教學課程,請參閱使用 Amazon SageMaker AI 模型平行處理程式庫進行 PyTorch 訓練的範例筆記本。

  2. 您也可以擴充預先建置的容器,為您的演算法或預先建置 SageMaker Docker 映像不支援的模型處理任何額外的功能要求。若要尋找如何擴充預先建置容器的範例,請參閱延伸預先建置的容器

  3. 您可以使用 SageMaker Training 工具組,調整自己的 Docker 容器來使用 SageMaker AI。有關範例,請參閱調整您自己的訓練容器

如需上述清單中的選項 2 和 3 的說明,請參閱擴充包含 SageMaker 分散式模型平行程式庫的預先建置 Docker 容器,了解如何在擴充或自訂 Docker 容器中安裝模型平行程式庫。

在所有情況下,您都可以啟動訓練任務組態,設定 SageMaker TensorFlowPyTorch 估算器以啟動程式庫。如需詳細資訊,請參閱下列主題。