SageMaker モデル並列処理による分散型トレーニングJob 実行 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker モデル並列処理による分散型トレーニングJob 実行

SageMakerPython SDK とモデルparallel ライブラリを使用して、 SageMaker 独自のトレーニングスクリプトでモデル並列トレーニングジョブを実行する方法を学びます。

トレーニングジョブの実行には 3 つのユースケースシナリオがあります。 SageMaker

  1. およびには、 AWS あらかじめ構築されたディープラーニングコンテナの 1 つを使用できます。 TensorFlow PyTorchこのオプションは、モデル並列ライブラリを初めて使用する場合に推奨されます。 SageMaker モデル並列トレーニングジョブの実行方法に関するチュートリアルについては、Amazon PyTorch SageMaker のモデル並列処理ライブラリを使ったトレーニングのサンプルノートブックをご覧ください

  2. ビルド済みのコンテナを拡張して、ビルド済みの Docker イメージではサポートされていない、アルゴリズムやモデルのその他の機能要件を処理できます。 SageMaker 構築済みのコンテナを拡張する方法の例については、「構築済みコンテナを拡張する」を参照してください。

  3. SageMaker トレーニングツールキットを使用して、独自の Docker コンテナを動作するように調整できます。SageMaker 例については、「独自のトレーニングコンテナを適応させる」を参照してください。

上記のリストのオプション 2 と 3 については、「 SageMakerの分散モデル並列ライブラリを含むビルド済みの Docker コンテナを拡張します。」を参照して、拡張またはカスタマイズされた Docker コンテナにモデル並列ライブラリをインストールする方法を確認してください。

いずれの場合も、ライブラリをアクティブにするように OR SageMaker TensorFlow PyTorch Estimator を設定してトレーニングジョブを開始します。詳細については、以下のトピックを参照してください。