本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SMDDP 使用 SageMaker Python 使用 啟動分散式訓練任務 SDK
若要從 使用調整後的指令碼執行分散式訓練任務調整訓練指令碼以使用SMDDP集體操作,請使用 SageMaker Python SDK的架構或一般估算器,方法是將準備好的訓練指令碼指定為進入點指令碼和分散式訓練組態。
此頁面會逐步說明如何以兩種方式使用 SageMaker AI PythonSDK
-
如果您想要在 SageMaker AI 中快速採用分散式訓練任務,請設定 SageMaker AI PyTorch
或TensorFlow 架構估算器類別。架構估算器會擷取您的訓練指令碼,並自動比對預先建置 PyTorch 或 TensorFlow 深度學習容器 (DLC) URI的正確映像,並將 framework_version
參數指定的值指定為 。 -
如果您想要擴充其中一個預先建置的容器,或建置自訂容器以使用 SageMaker AI 建立自己的 ML 環境,請使用 SageMaker AI 一般
Estimator
類別,並指定 Amazon Elastic Container Registry (Amazon ) 中託管URI的自訂 Docker 容器映像ECR。
您的訓練資料集應存放在 Amazon S3or Amazon FSx for Lustre 中,位於您啟動訓練任務 AWS 區域 的 中。如果您使用 Jupyter 筆記本,您應該有 SageMaker 筆記本執行個體或 SageMaker Studio Classic 應用程式在相同的 中執行 AWS 區域。如需存放訓練資料的詳細資訊,請參閱 SageMaker Python SDK資料輸入
提示
我們建議您使用 Amazon FSx for Lustre 而非 Amazon S3 來改善訓練效能。Amazon FSx的輸送量比 Amazon S3 高,延遲也較低。
提示
若要在EFA已啟用 的執行個體類型上正確執行分散式訓練,您應該設定 的安全群組VPC,以允許進出安全群組本身的所有傳入和傳出流量,藉此啟用執行個體之間的流量。若要了解如何設定安全群組規則,請參閱《Amazon EC2使用者指南》中的步驟 1:準備啟用 EFA的安全群組。
選擇下列其中一個主題,以取得如何執行訓練指令碼分散式訓練任務的指示。啟動訓練任務後,您可以使用 Amazon SageMaker Debugger或 Amazon 監控系統使用率和模型效能 CloudWatch。
當您按照下列主題中的指示進一步了解技術詳細資訊時,我們也建議您嘗試開始使用Amazon SageMaker AI 資料平行處理程式庫範例。