SageMaker Python SMDDPを使用して で分散トレーニングジョブを起動する SDK - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker Python SMDDPを使用して で分散トレーニングジョブを起動する SDK

から適合したスクリプトを使用して分散トレーニングジョブを実行するにはSMDDP 集合オペレーションを使用するようにトレーニングスクリプトを調整する、準備されたトレーニングスクリプトをエントリポイントスクリプトと分散トレーニング設定として指定して、 SageMaker Python SDKのフレームワークまたは汎用推定器を使用します。

このページでは、SageMaker Python SDK を 2 つの方法で使用する方法について説明します。

  • 分散トレーニングジョブを で迅速に導入するには SageMaker、 SageMaker PyTorchまたはTensorFlowフレームワーク推定器クラスを設定します。フレームワーク推定器はトレーニングスクリプトを取得し、 framework_versionパラメータに指定された値を指定して、構築済みコンテナ PyTorch または TensorFlow Deep Learning Containers (DLC) URIの正しいイメージに自動的に一致します。

  • 構築済みのコンテナの 1 つを拡張するか、カスタムコンテナを構築して で独自の ML 環境を作成する場合は SageMaker、 SageMaker 汎用Estimatorクラスを使用し、Amazon Elastic Container Registry (Amazon ) でホストされているカスタム Docker コンテナURIのイメージを指定しますECR。

トレーニングデータセットは、トレーニングジョブを起動する AWS リージョン の Amazon S3 または Amazon FSx for Lustre に保存する必要があります。Jupyter Notebooks を使用する場合は、同じ で SageMaker ノートブックインスタンスまたは SageMaker Studio Classic アプリケーションを実行している必要があります AWS リージョン。トレーニングデータの保存の詳細については、SageMaker Python SDKデータ入力ドキュメントを参照してください。

ヒント

トレーニングのパフォーマンスを向上させるには、Amazon S3 の代わりに Amazon FSx for Lustre を使用することをお勧めします。Amazon FSxはAmazon S3よりもスループットが高く、レイテンシーが低くなります。

ヒント

EFAが有効なインスタンスタイプで分散トレーニングを適切に実行するには、 のセキュリティグループをセットアップして、セキュリティグループ自体との間で送受信されるすべてのトラフィックを許可VPCすることで、インスタンス間のトラフィックを有効にする必要があります。セキュリティグループルールを設定する方法については、「Amazon EC2ユーザーガイド」の「ステップ 1: EFA対応セキュリティグループを準備する」を参照してください。

トレーニングスクリプトの分散トレーニングジョブを実行する方法については、次のトピックのいずれかを選択します。トレーニングジョブを起動したら、 Amazon SageMaker デバッガーまたは Amazon を使用してシステム使用率とモデルパフォーマンスをモニタリングできます CloudWatch。

技術的な詳細については、次のトピックの手順に従ってください。また、開始するには「Amazon SageMaker データ並列処理ライブラリの例」を試してみることをお勧めします。