翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod リリースノート
次のリリースノートでは、Amazon の最新更新を追跡します SageMaker HyperPod。これらのリリースノートでは、以前のバージョン以降に行われた新機能、修正、および改善点について説明します。
SageMaker HyperPod リリースノート: 2024 年 9 月 10 日
SageMaker HyperPod は、 用に以下をリリースしますAmazon による SageMaker HyperPod クラスターのオーケストレーション EKS。
新しい特徴
-
に Amazon EKS サポートを追加しました SageMaker HyperPod。詳細については、「Amazon による SageMaker HyperPod クラスターのオーケストレーション EKS」を参照してください。
SageMaker HyperPod DLAMI for Amazon EKS サポート
以下は、Amazon EKS サポート SageMaker HyperPod DLAMIs用 にプリインストールまたは事前設定されているパッケージの概要リストです。各 DLAMIsは Amazon Linux 2 (AL2) 上に構築されており、特定の Kubernetes バージョンをサポートしています。
AMIs には以下が含まれます。
SageMaker HyperPod DLAMI Slurm サポート用
HyperPod サービスチームは、 を通じてソフトウェアパッチを配布しますSageMaker HyperPod DLAMI。Slurm の最新情報 HyperPod DLAMIについては、以下の詳細を参照してください。
注記
既存の HyperPod クラスターを最新の で更新する手順については HyperPod DLAMI、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する。
-
NVIDIA ドライバー v550.90.07 をインストールしました
-
EFA ドライバー v2.10 をインストールしました
-
AWS Neuron の最新バージョンをインストールしました SDK
-
aws-neuronx-collectives: v2.21.46.0
-
aws-neuronx-dkms: v2.17.17.0
-
aws-neuronx-oci-hook: v2.4.4.0
-
aws-neuronx-runtime-lib: v2.21.41.0
-
aws-neuronx-tools: v2.18.3.0
-
SageMaker HyperPod リリースノート: 2024 年 8 月 20 日
SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション。
新しい特徴
-
SageMaker HyperPod 自動再開機能 を強化し、Generic RESources () にアタッチされた Slurm ノードの耐障害性機能を拡張しましたGRES。
汎用リソース (GRES)
が Slurm ノードにアタッチされている場合、Slurm は通常、ノードの置き換えなど、ノード割り当ての変更を許可しないため、失敗したジョブを再開することはできません。明示的に禁止されていない限り、 HyperPod自動再開機能は、 GRESが有効なノードに関連付けられた障害のあるジョブを自動的に再キューに入れます。このプロセスでは、ジョブを停止し、ジョブキューに戻し、最初からジョブを再起動します。
その他の変更点
-
slurmrestd
でパッケージ化されています SageMaker HyperPod AMI。 -
システムの応答性とジョブ処理を向上させる
slurm.conf
ため、ResumeTimeout
と のデフォルト値を 60 秒UnkillableStepTimeout
から 300 秒に変更しました。 -
NVIDIA Data Center GPU Manager (DCGM) と NVIDIA System Management Interface (nvidia-smi) のヘルスチェックを少し改善しました。
バグ修正
-
HyperPod 自動再開プラグインは、アイドルノードを使用してジョブを再開できます。
アップグレードステップ
-
次のコマンドを実行して を呼び出しUpdateClusterSoftwareAPI、既存の HyperPodクラスターを最新の で更新します HyperPod DLAMI。手順の詳細については、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する。
重要
この を実行する前に、作業をバックアップしますAPI。パッチ適用プロセスは、ルートボリュームを更新された に置き換えます。つまりAMI、インスタンスルートボリュームに保存されていた以前のデータは失われます。インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「が提供するバックアップスクリプトを使用する SageMaker HyperPod」を参照してください。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注記
HyperPod クラスターを更新するには、 AWS CLI コマンドを実行する必要があります。 SageMaker HyperPod コンソール UI による HyperPod ソフトウェアの更新は現在利用できません。
SageMaker HyperPod リリースノート: 2024 年 6 月 20 日
SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション。
新しい特徴
-
SageMaker HyperPod クラスターインスタンスに追加ストレージをアタッチする新しい機能を追加しました。この機能を使用すると、 SageMaker HyperPod コンソールまたは
CreateCluster
およびUpdateCluster
を使用して、クラスターの作成または更新プロセス中にインスタンスグループ設定レベルで補足ストレージを設定できますAPIs。追加EBSボリュームは SageMaker HyperPod クラスター内の各インスタンスにアタッチされ、 にマウントされます/opt/sagemaker
。 SageMaker HyperPod クラスターへの実装の詳細については、以下のページの更新されたドキュメントを参照してください。この機能を使用するには、 HyperPod クラスターソフトウェアを更新する必要があることに注意してください。 HyperPod クラスターソフトウェアにパッチを適用した後、新しいインスタンスグループを追加することで、2024 年 6 月 20 日より前に作成された既存の SageMaker HyperPod クラスターにこの機能を使用できます。この機能は、2024 年 6 月 20 日以降に作成されたすべての SageMaker HyperPod クラスターに対して完全に有効です。
アップグレードステップ
-
次のコマンドを実行して を呼び出しUpdateClusterSoftwareAPI、既存の HyperPodクラスターを最新の で更新します HyperPod DLAMI。手順の詳細については、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する。
重要
この を実行する前に、作業をバックアップしますAPI。パッチ適用プロセスは、ルートボリュームを更新された に置き換えます。つまりAMI、インスタンスルートボリュームに保存されていた以前のデータは失われます。インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「が提供するバックアップスクリプトを使用する SageMaker HyperPod」を参照してください。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注記
HyperPod クラスターを更新するには、 AWS CLI コマンドを実行する必要があります。 SageMaker HyperPod コンソール UI による HyperPod ソフトウェアの更新は現在利用できません。
SageMaker HyperPod リリースノート: 2024 年 4 月 24 日
SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション。
バグ修正
-
の
ThreadsPerCore
パラメータでバグを修正ClusterInstanceGroupSpecification
しましたAPI。修正により、CreateCluster
と は を通じてユーザー入力UpdateCluster
APIsを適切に取得して適用しますThreadsPerCore
。この修正は、2024 年 4 月 24 日以降に作成された HyperPod クラスターに対して有効です。このバグに問題があり、この修正をクラスターに適用したい場合は、新しいクラスターを作成する必要があります。の手順に従って、新しいクラスターに移動しながら、作業をバックアップおよび復元してくださいが提供するバックアップスクリプトを使用する SageMaker HyperPod。
SageMaker HyperPod リリースノート: 2024 年 3 月 27 日
SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション。
HyperPod ソフトウェアパッチ
HyperPod サービスチームは、 を通じてソフトウェアパッチを配布しますSageMaker HyperPod DLAMI。最新の については、以下の詳細を参照してください HyperPod DLAMI。
-
のこのリリースでは HyperPod DLAMI、Slurm は JSON、、YAMLおよび JWT サポートを備えたRESTサービス (
slurmestd
) で構築されています。 -
Slurm
を v23.11.3 にアップグレード
アップグレードステップ
-
次のコマンドを実行して を呼び出しUpdateClusterSoftwareAPI、既存の HyperPodクラスターを最新の で更新します HyperPod DLAMI。手順の詳細については、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する。
重要
この を実行する前に、作業をバックアップしますAPI。パッチ適用プロセスは、ルートボリュームを更新された に置き換えます。つまりAMI、インスタンスルートボリュームに保存されていた以前のデータは失われます。インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「が提供するバックアップスクリプトを使用する SageMaker HyperPod」を参照してください。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注記
HyperPod クラスターを更新するには、 AWS CLI コマンドを実行する必要があります。 SageMaker HyperPod コンソール UI による HyperPod ソフトウェアの更新は現在利用できません。
改良点
-
自動再開サービスのタイムアウトが 60 分に増加しました。
-
Slurm コントローラーを再起動しないようにインスタンス置換プロセスを改善しました。
-
インスタンスの起動時のダウンロードエラーやインスタンスヘルスチェックエラーなど、実行中のライフサイクルスクリプトからのエラーメッセージが改善されました。
バグ修正
-
時間同期の問題の原因となった chrony サービスのバグを修正しました。
-
を解析するバグを修正しました
slurm.conf
。 -
NVIDIA
go-dcgm
ライブラリの問題を修正しました。
SageMaker HyperPod リリースノート: 2024 年 3 月 14 日
SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション。
HyperPod DLAMI for Slurm ソフトウェアパッチ
HyperPod サービスチームは、 を通じてソフトウェアパッチを配布しますSageMaker HyperPod DLAMI。最新の については、以下の詳細を参照してください HyperPod DLAMI。
-
Slurm
を v23.11.1 にアップグレード -
で Slurm PMIx
を有効にするための OpenPMIx v4.2.6 を追加しました。 -
2023-10-26 にリリースされた AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
に基づいて構築 -
ベースに加えて、プリ HyperPod DLAMIインストールされたパッケージの完全なリスト AMI
アップグレードステップ
-
次のコマンドを実行して を呼び出しUpdateClusterSoftwareAPI、既存の HyperPodクラスターを最新の で更新します HyperPod DLAMI。手順の詳細については、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する。
重要
この を実行する前に、作業をバックアップしますAPI。パッチ適用プロセスは、ルートボリュームを更新された に置き換えます。つまりAMI、インスタンスルートボリュームに保存されていた以前のデータは失われます。インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「が提供するバックアップスクリプトを使用する SageMaker HyperPod」を参照してください。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注記
HyperPod クラスターを更新するには、 AWS CLI コマンドを実行する必要があります。 SageMaker HyperPod コンソール UI による HyperPod ソフトウェアの更新は現在利用できません。
改良点
-
HyperPod は、 を通じて提供されたパーティション名の渡すことを適切にサポート
provisioning_params.json
し、提供された入力に基づいてパーティションを適切に作成できるようになりました。provisioning_params.json
の詳細については、「SageMaker HyperPod フォーム」と「ライフサイクルスクリプトを使用してクラスターをカスタマイズ SageMaker HyperPodする」を参照してください。
SageMaker HyperPod リリースノート: 2024 年 2 月 15 日
SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション。
新しい特徴
-
SageMaker HyperPod セキュリティパッチ適用
UpdateClusterSoftware
API用の新しい を追加しました。セキュリティパッチが利用可能になったら、 を実行して、アカウント内の既存の SageMaker HyperPod クラスターを更新することをお勧めしますaws sagemaker update-cluster-software --cluster-name
。今後のセキュリティパッチをフォローアップするには、この Amazon SageMaker HyperPod リリースノートページを引き続き追跡してください。のyour-cluster-name
UpdateClusterSoftware
API仕組みについては、「」を参照してくださいクラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する。
SageMaker HyperPod リリースノート: 2023 年 11 月 29 日
SageMaker HyperPod は、 用に以下をリリースしますSlurm を使用した SageMaker HyperPod クラスターのオーケストレーション。
新しい特徴
-
AWS re:Invent 2023 SageMaker HyperPod で Amazon を起動しました。
HyperPod ソフトウェアパッチ
HyperPod サービスチームは、 を通じてソフトウェアパッチを配布しますSageMaker HyperPod DLAMI。最新の については、以下の詳細を参照してください HyperPod DLAMI。
-
2023-10-18 にリリースされた AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
に基づいて構築 -
ベースに加えて、プリ HyperPod DLAMIインストールされたパッケージの完全なリスト AMI
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2.* -
aws-neuronx-collectives
: v2.* -
aws-neuronx-runtime-lib
: v2.* -
aws-neuronx-tools
: v2.* -
SageMaker HyperPod クラスターヘルスチェックや自動再開などの機能をサポートするソフトウェアパッケージ
-