翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker Python SMDDPを使用して で分散トレーニングジョブを起動する SDK
から適合したスクリプトを使用して分散トレーニングジョブを実行するにはSMDDP 集合オペレーションを使用するようにトレーニングスクリプトを調整する、準備されたトレーニングスクリプトをエントリポイントスクリプトと分散トレーニング設定として指定して、 SageMaker Python SDKのフレームワークまたは汎用推定器を使用します。
このページでは、SageMaker Python SDK
-
分散トレーニングジョブを で迅速に導入するには SageMaker、 SageMaker PyTorch
またはTensorFlow フレームワーク推定器クラスを設定します。フレームワーク推定器はトレーニングスクリプトを取得し、 framework_version
パラメータに指定された値を指定して、構築済みコンテナ PyTorch または TensorFlow Deep Learning Containers (DLC)URIの正しいイメージに自動的に一致します。 -
構築済みのコンテナの 1 つを拡張するか、カスタムコンテナを構築して で独自の ML 環境を作成する場合は SageMaker、 SageMaker 汎用
Estimator
クラスを使用し、Amazon Elastic Container Registry (Amazon ) でホストされているカスタム Docker コンテナURIのイメージを指定しますECR。
トレーニングデータセットは、トレーニングジョブを起動する AWS リージョン の Amazon S3 または Amazon FSx for Lustre に保存する必要があります。Jupyter Notebooks を使用する場合は、同じ で SageMaker ノートブックインスタンスまたは SageMaker Studio Classic アプリケーションを実行している必要があります AWS リージョン。トレーニングデータの保存の詳細については、SageMaker Python SDKデータ入力
ヒント
トレーニングのパフォーマンスを向上させるには、Amazon S3 の代わりに Amazon FSx for Lustre を使用することをお勧めします。Amazon FSxはAmazon S3よりもスループットが高く、レイテンシーが低くなります。
ヒント
EFAが有効なインスタンスタイプで分散トレーニングを適切に実行するには、 のセキュリティグループをセットアップして、セキュリティグループ自体との間で送受信されるすべてのトラフィックを許可VPCすることで、インスタンス間のトラフィックを有効にする必要があります。セキュリティグループルールを設定する方法については、「Amazon EC2ユーザーガイド」の「ステップ 1: EFA対応セキュリティグループを準備する」を参照してください。
トレーニングスクリプトの分散トレーニングジョブを実行する方法については、次のトピックのいずれかを選択します。トレーニングジョブを起動したら、 Amazon SageMaker デバッガーまたは Amazon を使用してシステム使用率とモデルパフォーマンスをモニタリングできます CloudWatch。
技術的な詳細については、次のトピックの手順に従ってください。また、開始するには「Amazon SageMaker データ並列処理ライブラリの例」を試してみることをお勧めします。