翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker AI 分散データ並列処理 (SMDDP) ライブラリは、 AWS インフラストラクチャに最適化された集合通信オペレーションの実装を提供することで、深層学習モデルの SageMaker トレーニング機能をほぼ線形のスケーリング効率で拡張します。
大規模言語モデル (LLM) や拡散モデルなどの大規模機械学習 (ML) モデルを膨大なトレーニングデータセットでトレーニングする際、機械学習の実務者はアクセラレーターのクラスターや分散トレーニング手法を活用して、トレーニング時間を短縮したり、各 GPU メモリに収まりきらないモデルのメモリ制約を解消したりします。通常は、単一のインスタンス上で複数のアクセラレーターを使い始め、ワークロード要件の増加に応じてインスタンスのクラスターにスケールアップしていきます。クラスターのサイズが大きくなるにつれて、複数のノード間の通信オーバーヘッドも大きくなり、全体的な計算性能が低下します。
このようなオーバーヘッドやメモリの問題に対処するために、SMDDP ライブラリには以下の機能があります。
-
SMDDP ライブラリは、 AWS ネットワークインフラストラクチャと Amazon SageMaker AI ML インスタンストポロジのトレーニングジョブを最適化します。
-
SMDDP ライブラリは、 の実装と、 AWS インフラストラクチャ用に最適化された
AllReduce
AllGather
集合通信オペレーションにより、ノード間の通信を改善します。
SMDDP ライブラリの機能の詳細については、「SageMaker AI 分散データ並列処理ライブラリの概要」を参照してください。
SageMaker AI が提供するモデル並列戦略によるトレーニングの詳細については、「」も参照してください(アーカイブ済み) SageMaker モデル並列処理ライブラリ v1.x。