SageMaker 分散データ並列処理ライブラリによる分散トレーニングの実行 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker 分散データ並列処理ライブラリによる分散トレーニングの実行

SageMaker Distributed Data Parallelism (SMDDP) ライブラリは、インフラストラクチャに最適化された集団通信操作を実装することで、 SageMaker ディープラーニングモデルのトレーニング機能をほぼ線形のスケーリング効率で拡張します。 AWS

大規模な言語モデル(LLM)や拡散モデルなどの大規模な機械学習(ML)モデルを巨大なトレーニングデータセットでトレーニングする場合、機械学習実践者はアクセラレータのクラスターと分散トレーニング手法を使用して、トレーニングにかかる時間を短縮したり、各GPUメモリに収まらないモデルのメモリ制約を解決したりします。ML の実践者は、1 つのインスタンスで複数のアクセラレータから始め、ワークロード要件の増大に応じてインスタンスのクラスターにスケーリングすることがよくあります。クラスターのサイズが大きくなると、複数のノード間の通信オーバーヘッドも大きくなり、全体的な計算パフォーマンスが低下します。

このようなオーバーヘッドとメモリの問題に対処するため、SMDDP ライブラリでは以下の機能を提供しています。

  • SMDDP ライブラリは、 AWS ネットワークインフラストラクチャと Amazon SageMaker ML インスタンストポロジのトレーニングジョブを最適化します。

  • SMDDP ライブラリは、AllReduceAllGatherインフラストラクチャに最適化された通信オペレーションの実装と一括通信操作により、ノード間の通信を改善します。 AWS

SMDDP ライブラリサービスの詳細については、を参照してください。 SageMaker 分散データ並列処理ライブラリの概要

が提供するモデルparallel 戦略によるトレーニングの詳細については SageMaker、も参照してください。(アーカイブ済み) SageMaker モデル並列処理ライブラリ v1.x