翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker モデル並列処理による分散型トレーニングJob 実行
SageMakerPython SDK とモデルparallel ライブラリを使用して、 SageMaker 独自のトレーニングスクリプトでモデル並列トレーニングジョブを実行する方法を学びます。
トレーニングジョブの実行には 3 つのユースケースシナリオがあります。 SageMaker
-
およびには、 AWS あらかじめ構築されたディープラーニングコンテナの 1 つを使用できます。 TensorFlow PyTorchこのオプションは、モデル並列ライブラリを初めて使用する場合に推奨されます。 SageMaker モデル並列トレーニングジョブの実行方法に関するチュートリアルについては、Amazon PyTorch SageMaker のモデル並列処理ライブラリを使ったトレーニングのサンプルノートブックをご覧ください
。 -
ビルド済みのコンテナを拡張して、ビルド済みの Docker イメージではサポートされていない、アルゴリズムやモデルのその他の機能要件を処理できます。 SageMaker 構築済みのコンテナを拡張する方法の例については、「構築済みコンテナを拡張する」を参照してください。
-
SageMaker トレーニングツールキットを使用して、独自の Docker コンテナを動作するように調整できます。SageMaker
例については、「独自のトレーニングコンテナを適応させる」を参照してください。
上記のリストのオプション 2 と 3 については、「 SageMakerの分散モデル並列ライブラリを含むビルド済みの Docker コンテナを拡張します。」を参照して、拡張またはカスタマイズされた Docker コンテナにモデル並列ライブラリをインストールする方法を確認してください。
いずれの場合も、ライブラリをアクティブにするように OR SageMaker TensorFlow
PyTorch
Estimator を設定してトレーニングジョブを開始します。詳細については、以下のトピックを参照してください。