

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker モデル並列処理ライブラリの主要機能
<a name="model-parallel-core-features"></a>

シャーディングデータ並列処理、テンソル並列処理、パイプラインスケジューリングのためのレイヤーによるモデルパーティショニングおよびチェックポイントなど、分散戦略とメモリ節約手法を提供する Amazon SageMaker AI のモデル並列処理ライブラリの主要機能。モデル並列処理の戦略と手法は、トレーニングの速度とメモリ消費を最適化しつつ、大規模なモデルを複数のデバイスに分散させるのに役立ちます。このライブラリには Python ヘルパー関数、コンテキストマネージャー、ラッパー関数も用意されています。これにより、トレーニングスクリプトをモデルの自動パーティショニングまたは手動パーティショニングに適合させることができます。

トレーニングジョブにモデル並列処理を実装する場合、「[モデル並列処理による SageMaker 分散トレーニングジョブの実行](https://docs.aws.amazon.com/sagemaker/latest/dg/model-parallel-use-api.html)」セクションに示されているのと同じ 2 段階のワークフローを維持します。トレーニングスクリプトを適合させるために、トレーニングスクリプトにゼロまたは数行のコード行を追加します。適合させたトレーニングスクリプトのトレーニングジョブを開始するには、メモリ節約機能を有効にしたり、並列処理の制限値を渡すため、ディストリビューション設定パラメータを設定する必要があります。

サンプルを使って開始するには、SageMaker モデル並列処理ライブラリの使用方法を示す次の Jupyter Notebook を参照してください。
+ [PyTorch のサンプルノートブック](https://github.com/aws/amazon-sagemaker-examples/tree/main/training/distributed_training/pytorch/model_parallel)
+ [TensorFlow のサンプルノートブック](https://github.com/aws/amazon-sagemaker-examples/tree/main/training/distributed_training/tensorflow/model_parallel/mnist)

ライブラリの主要機能について詳しく知るには、以下のトピックを参照してください。

**注記**  
SageMaker 分散トレーニングライブラリは、SageMaker トレーニングプラットフォーム内の PyTorch、Hugging Face、TensorFlow の AWS 深層学習コンテナを通じて利用できます。分散トレーニングライブラリの機能を利用するには、SageMaker Python SDK の使用をお勧めします。また、SDK for Python (Boto3) または AWS Command Line Interfaceで SageMaker API を使用する場合は、JSON リクエスト構文で手動で設定することも可能です。このドキュメントの説明と例では、SageMaker Python SDK を使った分散トレーニングライブラリの使用方法に焦点を当てています。

**重要**  
SageMaker モデル並列処理ライブラリは PyTorch のすべての主要機能および TensorFlow のパイプライン並列処理をサポートしています。

**Topics**
+ [シャーディングデータ並列処理](model-parallel-extended-features-pytorch-sharded-data-parallelism.md)
+ [モデルのパイプライン化](model-parallel-core-features-pipieline-parallelism.md)
+ [テンソル並列処理](model-parallel-extended-features-pytorch-tensor-parallelism.md)
+ [オプティマイザ状態シャーディング](model-parallel-extended-features-pytorch-optimizer-state-sharding.md)
+ [アクティベーションチェックポイント](model-parallel-extended-features-pytorch-activation-checkpointing.md)
+ [アクティベーションオフロード](model-parallel-extended-features-pytorch-activation-offloading.md)
+ [モデル並列処理による FP16 トレーニング](model-parallel-extended-features-pytorch-fp16.md)
+ [FlashAttention のサポート](model-parallel-attention-head-size-for-flash-attention.md)