翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker データ並列処理ライブラリのリリースノート
SageMaker 分散データ並列処理 (SMDDP) ライブラリの最新の更新を追跡するには、次のリリースノートを参照してください。
SageMaker 分散データ並列処理ライブラリ v2.3.0
日付: 2024 年 6 月 11 日
新しい特徴
-
CUDA PyTorch v12.1 および Python v3.11 での v2.3.0 のサポートが追加されました。
-
PyTorch Lightning v2.2.5 のサポートが追加されました。これは PyTorch v2.3.0 の SageMaker フレームワークコンテナに統合されています。
-
サポートされていないインスタンスタイプに SMDDP ライブラリがロードされないように、インポート中にインスタンスタイプの検証を追加しました。SMDDP ライブラリと互換性のあるインスタンスタイプのリストについては、「」を参照してくださいサポートされているフレームワーク AWS リージョン、およびインスタンスタイプ。
SageMaker フレームワークコンテナへの統合
このバージョンの SMDDP ライブラリは、次のSageMaker フレームワークコンテナ
-
PyTorch v2.3.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker
SMDDP ライブラリのバージョンと構築済みコンテナの完全なリストについては、「」を参照してくださいサポートされているフレームワーク AWS リージョン、およびインスタンスタイプ。
このリリースのバイナリファイル
次の URL を使用してライブラリをダウンロードまたはインストールできます。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
その他の変更
-
SMDDP ライブラリ v2.2.0 は、 PyTorch v2.2.0 の SageMaker フレームワークコンテナに統合されています。
SageMaker 分散データ並列処理ライブラリ v2.2.0
日付: 2024 年 3 月 4 日
新しい特徴
-
CUDA PyTorch v12.1 での v2.2.0 のサポートが追加されました。
SageMaker モデル並列処理 (SMP) ライブラリによって分散された Docker コンテナへの統合
このバージョンの SMDDP ライブラリは に移行されます SageMaker モデル並列処理ライブラリ v2.2.0。
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
SMP Docker イメージが利用可能なリージョンについては、「」を参照してくださいAWS リージョン。
このリリースのバイナリファイル
次の URL を使用してライブラリをダウンロードまたはインストールできます。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
SageMaker 分散データ並列処理ライブラリ v2.1.0
日付: 2024 年 3 月 1 日
新しい特徴
-
CUDA PyTorch v12.1 での v2.1.0 のサポートが追加されました。
バグ修正
-
の CPU メモリリークの問題を修正しましたSMDDP v2.0.1。
SageMaker フレームワークコンテナとの統合
このバージョンの SMDDP ライブラリはベンチマークテストに合格し、次のSageMaker フレームワークコンテナ
-
PyTorch v2.1.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker
SageMaker モデル並列処理 (SMP) ライブラリによって分散された Docker コンテナへの統合
このバージョンの SMDDP ライブラリは に移行されます SageMaker モデル並列処理ライブラリ v2.1.0。
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
SMP Docker イメージが利用可能なリージョンについては、「」を参照してくださいAWS リージョン。
このリリースのバイナリファイル
次の URL を使用してライブラリをダウンロードまたはインストールできます。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
SageMaker 分散データ並列処理ライブラリ v2.0.1
日付: 2023 年 12 月 7 日
新しい特徴
-
AWS コンピューティングリソースとネットワークインフラストラクチャに最適化された
AllGather
集合オペレーションの新しい SMDDP 実装を追加しました。詳細については、「SMDDP AllGather集合演算」を参照してください。 -
SMDDP
AllGather
集合オペレーションは、 PyTorch FSDP および と互換性があります DeepSpeed。詳細については、「 PyTorch トレーニングスクリプトでSMDDPライブラリを使用する」を参照してください。 -
PyTorch v2.0.1 のサポートを追加
既知の問題
-
AllReduce
DDP モードで SMDDP でトレーニング中に CPU メモリが徐々に増加することによる CPU メモリリークの問題があります。
SageMaker フレームワークコンテナへの統合
このバージョンの SMDDP ライブラリはベンチマークテストに合格し、次のSageMaker フレームワークコンテナ
-
PyTorch v2.0.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker
このリリースのバイナリファイル
次の URL を使用してライブラリをダウンロードまたはインストールできます。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
その他の変更
-
このリリース以降、SMDDP ライブラリのドキュメントは、この Amazon SageMaker デベロッパーガイド で完全に入手できます。Amazon デベロッパーガイド に格納されている SMDDP v2 の完全なデ SageMaker ベロッパーガイドを優先して、Python SDK ドキュメントの SMDDP v1.x の追加リファレンス
に関するドキュメントはサポートされなくなりました。 SageMaker それでも SMP v1.x ドキュメントが必要な場合は、SageMaker Python SDK v2.212.0 ドキュメントの次のドキュメント のスナップショットを参照してください。