本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SMDDP 使用 SageMaker Python 啟動分散式訓練任務 SDK
若要從 使用調整後的指令碼執行分散式訓練任務調整訓練指令碼以使用SMDDP集體操作,請使用 SageMaker Python SDK的架構或一般估算器,方法是將準備好的訓練指令碼指定為入門點指令碼和分散式訓練組態。
此頁面會以兩種方式引導您使用 SageMaker PythonSDK
-
如果您想要在 中快速採用分散式訓練任務 SageMaker,請設定 SageMaker PyTorch
或 TensorFlow 架構估算器類別。根據 framework_version
參數指定的值,架構估算器會擷取您的訓練指令碼,並自動比對預先建置 PyTorch 或 TensorFlow 深度學習容器 (DLC)URI的正確映像。 -
如果您想要擴充其中一個預先建置的容器,或建置自訂容器以使用 建立自己的 ML 環境 SageMaker,請使用 SageMaker 一般
Estimator
類別,並指定 Amazon Elastic Container Registry (Amazon) 中託管URI的自訂 Docker 容器映像ECR。
您的訓練資料集應存放在 Amazon S3 或 Amazon FSx for Lustre 中,位於您啟動訓練任務 AWS 區域 的 中。如果您使用 Jupyter 筆記本,您應該在相同的 中執行 SageMaker 筆記本執行個體或 SageMaker Studio Classic 應用程式 AWS 區域。如需有關儲存訓練資料的詳細資訊,請參閱 SageMaker Python SDK資料輸入
提示
我們建議您使用 Amazon FSx for Lustre 而非 Amazon S3 來改善訓練效能。Amazon FSx的輸送量比 Amazon S3 更高,延遲更低。
提示
若要在EFA啟用 的執行個體類型上正確執行分散式訓練,您應該透過設定 的安全群組來啟用執行個體之間的流量VPC,以允許進出安全群組本身的所有傳入和傳出流量。若要了解如何設定安全群組規則,請參閱 Amazon EC2使用者指南 中的步驟 1:準備啟用 EFA的安全群組。
選擇下列其中一個主題,以取得如何執行訓練指令碼分散式訓練任務的指示。啟動訓練任務後,您可以使用 Amazon SageMaker Debugger或 Amazon 監控系統使用率和模型效能 CloudWatch。
當您按照下列主題中的指示進一步了解技術詳細資訊時,我們也建議您嘗試開始使用Amazon SageMaker 資料平行程式庫範例。