

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker Python SDK を使用して SMDDP で分散トレーニングジョブを開始する
<a name="data-parallel-use-api"></a>

「[SMDDP 集合演算を使用するようにトレーニングスクリプトを適応させる](data-parallel-modify-sdp-select-framework.md)」で適応させたスクリプトを使用して分散トレーニングジョブを実行するには、SageMaker Python SDK のフレームワークや汎用推定器を使用し、準備したトレーニングスクリプトをエントリポイントスクリプトおよび分散トレーニング設定として指定します。

このページでは、[SageMaker AI Python SDK](https://sagemaker.readthedocs.io/en/stable/api/training/index.html)の 2 とおりの使い方を説明します。
+ SageMaker AI で分散型トレーニングジョブを迅速に導入したい場合は、SageMaker AI の [PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/sagemaker.pytorch.html#sagemaker.pytorch.estimator.PyTorch) または [TensorFlow](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/sagemaker.tensorflow.html#tensorflow-estimator) フレームワーク推定クラスを設定します。フレームワーク推定器はトレーニングスクリプトを取得し、`framework_version` パラメータに指定された値を指定し、[pre-built PyTorch or TensorFlow Deep Learning Containers (DLC)](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) の適切な画像 URI を自動的に照合します。
+ 事前構築済みコンテナのいずれかの拡張や、カスタムコンテナを構築し SageMaker AI で独自の ML 環境を作成する場合は、SageMaker AI 汎用 `Estimator` クラスを使用して、Amazon Elastic Container Registry (Amazon ECR) でホストされているカスタム Docker コンテナのイメージ URI を指定します。

トレーニングデータセットは、トレーニングジョブを起動する の Amazon S3  [または Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/what-is.html) AWS リージョン に保存する必要があります。Jupyter Notebook を使用する場合は、SageMaker ノートブックインスタンスまたは SageMaker Studio Classic アプリケーションが同じ AWS リージョンで実行されている必要があります。トレーニングデータの保存の詳細については、「[SageMaker Python SDK data inputs](https://sagemaker.readthedocs.io/en/stable/overview.html#use-file-systems-as-training-input)」ドキュメントを参照してください。

**ヒント**  
トレーニングのパフォーマンスを向上させるために、Amazon S3 の代わりに Amazon FSx for Lustre を使用することをお勧めします。Amazon FSx は Amazon S3 よりも高スループットで、低レイテンシーです。

**ヒント**  
EFA 対応のインスタンスタイプで分散トレーニングを適切に実行するには、VPC のセキュリティグループとの間のインバウンドトラフィックとアウトバウンドトラフィックをすべて許可するように設定し、インスタンス間のトラフィックを有効にする必要があります。セキュリティグループのルールを設定する方法については、「*Amazon EC2 ユーザーガイド*」の「[ステップ 1: EFA 対応のセキュリティグループを準備する](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security)」を参照してください。

トレーニングスクリプトの分散トレーニングジョブを実行する方法については、以下のトピックの中から選択して手順を確認してください。トレーニングジョブを起動した後、[Amazon SageMaker デバッガー](train-debugger.md) または Amazon CloudWatch を使ってシステム使用率とモデルパフォーマンスをモニタリングできます。

技術的な詳細については、次のトピックの手順に従ってください。また、開始するには「[Amazon SageMaker AI データ並列処理ライブラリの例](distributed-data-parallel-v2-examples.md)」を試してみることをお勧めします。

**Topics**
+ [SageMaker Python SDK で PyTorch フレームワーク推定器を使用する](data-parallel-framework-estimator.md)
+ [SageMaker AI 汎用推定器を使用して構築済みの DLC コンテナを拡張する](data-parallel-use-python-skd-api.md)
+ [SageMaker AI 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する](data-parallel-bring-your-own-container.md)