Amazon SageMaker HyperPod リリースノート - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod リリースノート

次のリリースノートでは、Amazon の最新更新を追跡します SageMaker HyperPod。これらのリリースノートでは、以前のバージョン以降に行われた新機能、修正、および改善点について説明します。

SageMaker HyperPod リリースノート: 2024 年 9 月 10 日

SageMaker HyperPod は、 用に以下をリリースしますAmazon による SageMaker HyperPod クラスターのオーケストレーション EKS

新しい特徴

SageMaker HyperPod DLAMI for Amazon EKS サポート

以下は、Amazon EKS サポート SageMaker HyperPod DLAMIs用 にプリインストールまたは事前設定されているパッケージの概要リストです。各 DLAMIsは Amazon Linux 2 (AL2) 上に構築されており、特定の Kubernetes バージョンをサポートしています。

AMIs には以下が含まれます。

Deep Learning EKS AMI 1.28
  • Amazon EKS コンポーネント

    • Kubernetes バージョン: 1.28.11

    • コンテナバージョン: 1.7.20

    • Runc バージョン: 1.1.11

    • AWS IAM 認証: 0.6.21

  • Amazon SSM エージェント: 3.3.380

  • Linux カーネル: 5.10.223

  • OSS NVIDIA ドライバー: 535.183.01

  • NVIDIA CUDA: 12.2

  • EFA インストーラ: 1.32.0

  • GDRCopy: 2.4

  • NVIDIA コンテナツールキット: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.29
  • Amazon EKS コンポーネント

    • Kubernetes バージョン: 1.29.6

    • コンテナバージョン: 1.7.20

    • Runc バージョン: 1.1.11

    • AWS IAM 認証: 0.6.21

  • Amazon SSM エージェント: 3.3.380

  • Linux カーネル: 5.10.223

  • OSS Nvidia ドライバー: 535.183.01

  • NVIDIA CUDA: 12.2

  • EFA インストーラ: 1.32.0

  • GDRCopy: 2.4

  • Nvidia コンテナツールキット: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.30
  • Amazon EKS コンポーネント

    • Kubernetes バージョン: 1.30.2

    • コンテナバージョン: 1.7.20

    • Runc バージョン: 1.1.11

    • AWS IAM 認証: 0.6.21

  • Amazon SSM エージェント: 3.3.380

  • Linux カーネル: 5.10.223

  • OSS Nvidia ドライバー: 535.183.01

  • NVIDIA CUDA: 12.2

  • EFA インストーラ: 1.32.0

  • GDRCopy: 2.4

  • Nvidia コンテナツールキット: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

SageMaker HyperPod DLAMI Slurm サポート用

HyperPod サービスチームは、 を通じてソフトウェアパッチを配布しますSageMaker HyperPod DLAMI。Slurm の最新情報 HyperPod DLAMIについては、以下の詳細を参照してください。

注記

既存の HyperPod クラスターを最新の で更新する手順については HyperPod DLAMI、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する

  • NVIDIA ドライバー v550.90.07 をインストールしました

  • EFA ドライバー v2.10 をインストールしました

  • AWS Neuron の最新バージョンをインストールしました SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod リリースノート: 2024 年 8 月 20 日

SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション

新しい特徴

  • SageMaker HyperPod 自動再開機能 を強化し、Generic RESources () にアタッチされた Slurm ノードの耐障害性機能を拡張しましたGRES。

    汎用リソース (GRES) が Slurm ノードにアタッチされている場合、Slurm は通常、ノードの置き換えなど、ノード割り当ての変更を許可しないため、失敗したジョブを再開することはできません。明示的に禁止されていない限り、 HyperPod自動再開機能は、 GRESが有効なノードに関連付けられた障害のあるジョブを自動的に再キューに入れます。このプロセスでは、ジョブを停止し、ジョブキューに戻し、最初からジョブを再起動します。

その他の変更点

  • slurmrestd でパッケージ化されています SageMaker HyperPod AMI。

  • システムの応答性とジョブ処理を向上させるslurm.confため、 ResumeTimeoutと のデフォルト値を 60 秒UnkillableStepTimeoutから 300 秒に変更しました。

  • NVIDIA Data Center GPU Manager (DCGM) と NVIDIA System Management Interface (nvidia-smi) のヘルスチェックを少し改善しました。

バグ修正

  • HyperPod 自動再開プラグインは、アイドルノードを使用してジョブを再開できます。

アップグレードステップ

  • 次のコマンドを実行して を呼び出しUpdateClusterSoftwareAPI、既存の HyperPodクラスターを最新の で更新します HyperPod DLAMI。手順の詳細については、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する

    重要

    この を実行する前に、作業をバックアップしますAPI。パッチ適用プロセスは、ルートボリュームを更新された に置き換えます。つまりAMI、インスタンスルートボリュームに保存されていた以前のデータは失われます。インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「が提供するバックアップスクリプトを使用する SageMaker HyperPod」を参照してください。

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注記

    HyperPod クラスターを更新するには、 AWS CLI コマンドを実行する必要があります。 SageMaker HyperPod コンソール UI による HyperPod ソフトウェアの更新は現在利用できません。

SageMaker HyperPod リリースノート: 2024 年 6 月 20 日

SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション

新しい特徴

  • SageMaker HyperPod クラスターインスタンスに追加ストレージをアタッチする新しい機能を追加しました。この機能を使用すると、 SageMaker HyperPod コンソールまたは CreateClusterおよび UpdateCluster を使用して、クラスターの作成または更新プロセス中にインスタンスグループ設定レベルで補足ストレージを設定できますAPIs。追加EBSボリュームは SageMaker HyperPod クラスター内の各インスタンスにアタッチされ、 にマウントされます/opt/sagemaker。 SageMaker HyperPod クラスターへの実装の詳細については、以下のページの更新されたドキュメントを参照してください。

    この機能を使用するには、 HyperPod クラスターソフトウェアを更新する必要があることに注意してください。 HyperPod クラスターソフトウェアにパッチを適用した後、新しいインスタンスグループを追加することで、2024 年 6 月 20 日より前に作成された既存の SageMaker HyperPod クラスターにこの機能を使用できます。この機能は、2024 年 6 月 20 日以降に作成されたすべての SageMaker HyperPod クラスターに対して完全に有効です。

アップグレードステップ

  • 次のコマンドを実行して を呼び出しUpdateClusterSoftwareAPI、既存の HyperPodクラスターを最新の で更新します HyperPod DLAMI。手順の詳細については、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する

    重要

    この を実行する前に、作業をバックアップしますAPI。パッチ適用プロセスは、ルートボリュームを更新された に置き換えます。つまりAMI、インスタンスルートボリュームに保存されていた以前のデータは失われます。インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「が提供するバックアップスクリプトを使用する SageMaker HyperPod」を参照してください。

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注記

    HyperPod クラスターを更新するには、 AWS CLI コマンドを実行する必要があります。 SageMaker HyperPod コンソール UI による HyperPod ソフトウェアの更新は現在利用できません。

SageMaker HyperPod リリースノート: 2024 年 4 月 24 日

SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション

バグ修正

  • ThreadsPerCoreパラメータでバグを修正ClusterInstanceGroupSpecificationしましたAPI。修正により、 CreateCluster と は を通じてユーザー入力UpdateClusterAPIsを適切に取得して適用しますThreadsPerCore。この修正は、2024 年 4 月 24 日以降に作成された HyperPod クラスターに対して有効です。このバグに問題があり、この修正をクラスターに適用したい場合は、新しいクラスターを作成する必要があります。の手順に従って、新しいクラスターに移動しながら、作業をバックアップおよび復元してくださいが提供するバックアップスクリプトを使用する SageMaker HyperPod

SageMaker HyperPod リリースノート: 2024 年 3 月 27 日

SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション

HyperPod ソフトウェアパッチ

HyperPod サービスチームは、 を通じてソフトウェアパッチを配布しますSageMaker HyperPod DLAMI。最新の については、以下の詳細を参照してください HyperPod DLAMI。

  • のこのリリースでは HyperPod DLAMI、Slurm は JSON、、YAMLおよび JWT サポートを備えたRESTサービス (slurmestd) で構築されています。

  • Slurm を v23.11.3 にアップグレード

アップグレードステップ

  • 次のコマンドを実行して を呼び出しUpdateClusterSoftwareAPI、既存の HyperPodクラスターを最新の で更新します HyperPod DLAMI。手順の詳細については、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する

    重要

    この を実行する前に、作業をバックアップしますAPI。パッチ適用プロセスは、ルートボリュームを更新された に置き換えます。つまりAMI、インスタンスルートボリュームに保存されていた以前のデータは失われます。インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「が提供するバックアップスクリプトを使用する SageMaker HyperPod」を参照してください。

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注記

    HyperPod クラスターを更新するには、 AWS CLI コマンドを実行する必要があります。 SageMaker HyperPod コンソール UI による HyperPod ソフトウェアの更新は現在利用できません。

改良点

  • 自動再開サービスのタイムアウトが 60 分に増加しました。

  • Slurm コントローラーを再起動しないようにインスタンス置換プロセスを改善しました。

  • インスタンスの起動時のダウンロードエラーやインスタンスヘルスチェックエラーなど、実行中のライフサイクルスクリプトからのエラーメッセージが改善されました。

バグ修正

  • 時間同期の問題の原因となった chrony サービスのバグを修正しました。

  • を解析するバグを修正しましたslurm.conf

  • NVIDIA go-dcgm ライブラリの問題を修正しました。

SageMaker HyperPod リリースノート: 2024 年 3 月 14 日

SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション

HyperPod DLAMI for Slurm ソフトウェアパッチ

HyperPod サービスチームは、 を通じてソフトウェアパッチを配布しますSageMaker HyperPod DLAMI。最新の については、以下の詳細を参照してください HyperPod DLAMI。

  • Slurm を v23.11.1 にアップグレード

  • で Slurm PMIxを有効にするための OpenPMIx v4.2.6 を追加しました。

  • 2023-10-26 にリリースされた AWS Deep Learning Base GPU AMI (Ubuntu 20.04) に基づいて構築

  • ベースに加えて、プリ HyperPod DLAMIインストールされたパッケージの完全なリスト AMI

    • Slurm : v23.11.1

    • O penPMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod クラスターヘルスチェックや自動再開などの機能をサポートするソフトウェアパッケージ

アップグレードステップ

  • 次のコマンドを実行して を呼び出しUpdateClusterSoftwareAPI、既存の HyperPodクラスターを最新の で更新します HyperPod DLAMI。手順の詳細については、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する

    重要

    この を実行する前に、作業をバックアップしますAPI。パッチ適用プロセスは、ルートボリュームを更新された に置き換えます。つまりAMI、インスタンスルートボリュームに保存されていた以前のデータは失われます。インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「が提供するバックアップスクリプトを使用する SageMaker HyperPod」を参照してください。

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注記

    HyperPod クラスターを更新するには、 AWS CLI コマンドを実行する必要があります。 SageMaker HyperPod コンソール UI による HyperPod ソフトウェアの更新は現在利用できません。

改良点

SageMaker HyperPod リリースノート: 2024 年 2 月 15 日

SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション

新しい特徴

  • SageMaker HyperPod セキュリティパッチ適用UpdateClusterSoftwareAPI用の新しい を追加しました。セキュリティパッチが利用可能になったら、 を実行して、アカウント内の既存の SageMaker HyperPod クラスターを更新することをお勧めしますaws sagemaker update-cluster-software --cluster-name your-cluster-name。今後のセキュリティパッチをフォローアップするには、この Amazon SageMaker HyperPod リリースノートページを引き続き追跡してください。のUpdateClusterSoftwareAPI仕組みについては、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する

SageMaker HyperPod リリースノート: 2023 年 11 月 29 日

SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション

新しい特徴

  • AWS re:Invent 2023 SageMaker HyperPod で Amazon を起動しました。

HyperPod ソフトウェアパッチ

HyperPod サービスチームは、 を通じてソフトウェアパッチを配布しますSageMaker HyperPod DLAMI。最新の については、以下の詳細を参照してください HyperPod DLAMI。

  • 2023-10-18 にリリースされた AWS Deep Learning Base GPU AMI (Ubuntu 20.04) に基づいて構築

  • ベースに加えて、プリ HyperPod DLAMIインストールされたパッケージの完全なリスト AMI

    • Slurm : v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod クラスターヘルスチェックや自動再開などの機能をサポートするソフトウェアパッケージ