SageMaker データ並列処理ライブラリのリリースノート - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker データ並列処理ライブラリのリリースノート

SageMaker 分散データ並列処理 (SMDDP) ライブラリの最新の更新を追跡するには、次のリリースノートを参照してください。

SageMaker 分散データ並列処理ライブラリ v2.3.0

日付: 2024 年 6 月 11 日

新しい特徴

  • CUDA PyTorch v12.1 および Python v3.11 での v2.3.0 のサポートが追加されました。

  • PyTorch Lightning v2.2.5 のサポートが追加されました。これは PyTorch v2.3.0 の SageMaker フレームワークコンテナに統合されています。

  • サポートされていないインスタンスタイプに SMDDP ライブラリがロードされないように、インポート中にインスタンスタイプの検証を追加しました。SMDDP ライブラリと互換性のあるインスタンスタイプのリストについては、「」を参照してくださいサポートされているフレームワーク AWS リージョン、およびインスタンスタイプ

SageMaker フレームワークコンテナへの統合

このバージョンの SMDDP ライブラリは、次のSageMaker フレームワークコンテナ に移行されます。

  • PyTorch v2.3.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker

SMDDP ライブラリのバージョンと構築済みコンテナの完全なリストについては、「」を参照してくださいサポートされているフレームワーク AWS リージョン、およびインスタンスタイプ

このリリースのバイナリファイル

次の URL を使用してライブラリをダウンロードまたはインストールできます。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl

その他の変更

  • SMDDP ライブラリ v2.2.0 は、 PyTorch v2.2.0 の SageMaker フレームワークコンテナに統合されています。

SageMaker 分散データ並列処理ライブラリ v2.2.0

日付: 2024 年 3 月 4 日

新しい特徴

  • CUDA PyTorch v12.1 での v2.2.0 のサポートが追加されました。

SageMaker モデル並列処理 (SMP) ライブラリによって分散された Docker コンテナへの統合

このバージョンの SMDDP ライブラリは に移行されます SageMaker モデル並列処理ライブラリ v2.2.0

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

SMP Docker イメージが利用可能なリージョンについては、「」を参照してくださいAWS リージョン

このリリースのバイナリファイル

次の URL を使用してライブラリをダウンロードまたはインストールできます。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl

SageMaker 分散データ並列処理ライブラリ v2.1.0

日付: 2024 年 3 月 1 日

新しい特徴

  • CUDA PyTorch v12.1 での v2.1.0 のサポートが追加されました。

バグ修正

  • の CPU メモリリークの問題を修正しましたSMDDP v2.0.1

SageMaker フレームワークコンテナとの統合

このバージョンの SMDDP ライブラリはベンチマークテストに合格し、次のSageMaker フレームワークコンテナ に移行されます。

  • PyTorch v2.1.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker

SageMaker モデル並列処理 (SMP) ライブラリによって分散された Docker コンテナへの統合

このバージョンの SMDDP ライブラリは に移行されます SageMaker モデル並列処理ライブラリ v2.1.0

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121

SMP Docker イメージが利用可能なリージョンについては、「」を参照してくださいAWS リージョン

このリリースのバイナリファイル

次の URL を使用してライブラリをダウンロードまたはインストールできます。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl

SageMaker 分散データ並列処理ライブラリ v2.0.1

日付: 2023 年 12 月 7 日

新しい特徴

  • AWS コンピューティングリソースとネットワークインフラストラクチャに最適化されたAllGather集合オペレーションの新しい SMDDP 実装を追加しました。詳細については、「SMDDP AllGather集合演算」を参照してください。

  • SMDDP AllGather集合オペレーションは、 PyTorch FSDP および と互換性があります DeepSpeed。詳細については、「 PyTorch トレーニングスクリプトでSMDDPライブラリを使用する」を参照してください。

  • PyTorch v2.0.1 のサポートを追加

既知の問題

  • AllReduce DDP モードで SMDDP でトレーニング中に CPU メモリが徐々に増加することによる CPU メモリリークの問題があります。

SageMaker フレームワークコンテナへの統合

このバージョンの SMDDP ライブラリはベンチマークテストに合格し、次のSageMaker フレームワークコンテナ に移行されます。

  • PyTorch v2.0.1

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker

このリリースのバイナリファイル

次の URL を使用してライブラリをダウンロードまたはインストールできます。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

その他の変更

  • このリリース以降、SMDDP ライブラリのドキュメントは、この Amazon SageMaker デベロッパーガイド で完全に入手できます。Amazon デベロッパーガイド に格納されている SMDDP v2 の完全なデ SageMaker ベロッパーガイドを優先して、Python SDK ドキュメントの SMDDP v1.x の追加リファレンスに関するドキュメントはサポートされなくなりました。 SageMaker それでも SMP v1.x ドキュメントが必要な場合は、SageMaker Python SDK v2.212.0 ドキュメントの次のドキュメントのスナップショットを参照してください。