SageMaker Python SDK を使用して SMDDP で分散トレーニングジョブを開始する

「SMDDP 集合演算を使用するようにトレーニングスクリプトを適応させる」で適応させたスクリプトを使用して分散トレーニングジョブを実行するには、SageMaker Python SDK のフレームワークや汎用推定器を使用し、準備したトレーニングスクリプトをエントリポイントスクリプトおよび分散トレーニング設定として指定します。

このページでは、SageMaker AI Python SDKの 2 とおりの使い方を説明します。

SageMaker AI で分散型トレーニングジョブを迅速に導入したい場合は、SageMaker AI の PyTorch または TensorFlow フレームワーク推定クラスを設定します。フレームワーク推定器はトレーニングスクリプトを取得し、framework_version パラメータに指定された値を指定し、pre-built PyTorch or TensorFlow Deep Learning Containers (DLC) の適切な画像 URI を自動的に照合します。
事前構築済みコンテナのいずれかの拡張や、カスタムコンテナを構築し SageMaker AI で独自の ML 環境を作成する場合は、SageMaker AI 汎用 Estimator クラスを使用して、Amazon Elastic Container Registry (Amazon ECR) でホストされているカスタム Docker コンテナのイメージ URI を指定します。

トレーニングデータセットは、トレーニングジョブを起動するの Amazon S3 または Amazon FSx for Lustre AWS リージョンに保存する必要があります。Jupyter Notebook を使用する場合は、SageMaker ノートブックインスタンスまたは SageMaker Studio Classic アプリケーションが同じ AWS リージョンで実行されている必要があります。トレーニングデータの保存の詳細については、「SageMaker Python SDK data inputs」ドキュメントを参照してください。

ヒント

トレーニングのパフォーマンスを向上させるために、Amazon S3 の代わりに Amazon FSx for Lustre を使用することをお勧めします。Amazon FSx は Amazon S3 よりも高スループットで、低レイテンシーです。

ヒント

EFA 対応のインスタンスタイプで分散トレーニングを適切に実行するには、VPC のセキュリティグループとの間のインバウンドトラフィックとアウトバウンドトラフィックをすべて許可するように設定し、インスタンス間のトラフィックを有効にする必要があります。セキュリティグループのルールを設定する方法については、「Amazon EC2 ユーザーガイド」の「ステップ 1: EFA 対応のセキュリティグループを準備する」を参照してください。

トレーニングスクリプトの分散トレーニングジョブを実行する方法については、以下のトピックの中から選択して手順を確認してください。トレーニングジョブを起動した後、Amazon SageMaker デバッガーまたは Amazon CloudWatch を使ってシステム使用率とモデルパフォーマンスをモニタリングできます。

技術的な詳細については、次のトピックの手順に従ってください。また、開始するには「Amazon SageMaker AI データ並列処理ライブラリの例」を試してみることをお勧めします。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

TensorFlow (非推奨)

SageMaker Python SDK で PyTorch フレームワーク推定器を使用する