

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 SageMaker Python SDK 透過 SMDDP 啟動分散式訓練任務
<a name="data-parallel-use-api"></a>

若要使用來自 [調整訓練指令碼以使用 SMDDP 集體操作](data-parallel-modify-sdp-select-framework.md) 的改編指令碼執行分散式訓練任務，請使用 SageMaker Python SDK 的架構或一般估算器，方法是將準備好的訓練指令碼指定為進入點指令碼和分散式訓練組態。

此頁面說明如何以兩種方式使用 [SageMaker AI Python SDK](https://sagemaker.readthedocs.io/en/stable/api/training/index.html)。
+ 如果您想要在 SageMaker AI 中快速採用分散式訓練任務，請設定 SageMaker AI [PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/sagemaker.pytorch.html#sagemaker.pytorch.estimator.PyTorch) 或 [TensorFlow](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/sagemaker.tensorflow.html#tensorflow-estimator) 架構估算器類別。架構估算器會挑選您的訓練指令碼，並自動比對[預先建置的 PyTorch 或 TensorFlow 深度學習容器 (DLC](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)) 的正確映像 URI，且根據指定給 `framework_version` 參數的值來執行。
+ 如果您想要擴充其中一個預先建置的容器，或建立自訂容器以使用 SageMaker AI 建立自己的機器學習 (ML) 環境，請使用 SageMaker AI 一般 `Estimator` 類別，並指定託管在 Amazon Elastic Container Registry (Amazon ECR) 中的自訂 Docker 容器的映像 URI。

您的訓練資料集應存放在 Amazon S3 或 [Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/what-is.html)，位於您啟動訓練任務 AWS 區域 的 中。如果您使用 Jupyter 筆記本，您應該有一個 SageMaker 筆記本執行個體或 SageMaker Studio Classic 應用程式在同樣的 AWS 區域中執行。有關儲存訓練資料的詳細資訊，請參閱 [SageMaker Python SDK 資料輸入](https://sagemaker.readthedocs.io/en/stable/overview.html#use-file-systems-as-training-input) 文件。

**提示**  
建議您使用 Amazon FSx for Lustre，而不是 Amazon S3 來改進訓練效能。Amazon FSx 具有比 Amazon S3 更高的輸送量和更低的延遲。

**提示**  
若要在已啟用 EFA 的執行個體類型上正確執行分散式訓練，您應該透過設定 VPC 的安全群組來啟用執行個體之間的流量，以允許進出安全群組本身的所有傳入和傳出流量。若要了解如何設定安全群組規則，請參閱《Amazon EC2 使用者指南》**中的[步驟 1：準備啟用 EFA 的安全群組](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security)。

選擇下列其中一個主題，以取得如何執行訓練指令碼分散式訓練任務的指示。啟動訓練任務後，您可以使用 [Amazon SageMaker Debugger](train-debugger.md) 或 Amazon CloudWatch 監控系統使用率和模型效能。

當您按照下列主題中的指示進一步了解技術詳細資訊時，我們也建議您嘗試開始使用[Amazon SageMaker AI 資料平行程式庫範例](distributed-data-parallel-v2-examples.md)。

**Topics**
+ [在 SageMaker Python SDK 中使用 PyTorch 架構估算器](data-parallel-framework-estimator.md)
+ [使用 SageMaker AI 一般估算器來擴充預先建置的 DLC 容器](data-parallel-use-python-skd-api.md)
+ [使用 SageMaker AI 分散式資料平行程式庫建立您自己的 Docker 容器](data-parallel-bring-your-own-container.md)