Slurm を使用した SageMaker HyperPod クラスターのオーケストレーション - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Slurm を使用した SageMaker HyperPod クラスターのオーケストレーション

の Slurm サポート SageMaker HyperPod は、機械学習 (ML) ワークロードを実行し、大規模言語 state-of-the-art モデル ()、拡散モデル、基盤モデル (LLMs) などのモデルを開発するための回復力のあるクラスターをプロビジョニングするのに役立ちますFMs。これにより、 などの何千ものアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と保守に関連する未分化の重いリフトを排除FMsすることで、 の開発が加速されます。 AWS TrainiumNVIDIAA100、H100 グラフィカルプロセッシングユニット (GPUs)。アクセラレーターに障害が発生すると、 SageMaker HyperPod の障害耐性機能がクラスターインスタンスを自動的に検出して置き換えるため、ML ワークロードの実行に集中できます。さらに、 のライフサイクル設定のサポートにより SageMaker HyperPod、ニーズに最適なコンピューティング環境をカスタマイズし、Amazon SageMaker 分散トレーニングライブラリで設定して、 で最適なパフォーマンスを実現できます。 AWS.

運用クラスター

コンソールのユーザーインターフェイス (UI) を使用してグラフィカルにクラスターを作成、設定、保守したり、 を使用してプログラムで SageMaker HyperPod クラスターを作成、設定、保守したりできます。 AWS コマンドラインインターフェイス (CLI) または AWS SDK for Python (Boto3)。 Amazon を使用するとVPC、クラスターネットワークを保護しVPC、最速のスループットを提供する Amazon FSx for Lustre などの 内のリソースを使用してクラスターを設定することもできます。また、クラスターインスタンスグループに異なるIAMロールを付与したり、クラスターリソースとユーザーが操作できるアクションを制限したりすることもできます。詳細については、「SageMaker HyperPod オペレーション」を参照してください。

ML 環境の設定

SageMaker HyperPod は を実行しSageMaker HyperPod DLAMI、 HyperPod クラスターに ML 環境を設定します。ユースケースをサポートするライフサイクルスクリプトを提供することDLAMIで、 に追加のカスタマイズを設定できます。ライフサイクルスクリプトの設定方法の詳細については、の使用開始に関するチュートリアル SageMaker HyperPod「」および「」を参照してくださいライフサイクルスクリプトを使用してクラスターをカスタマイズ SageMaker HyperPodする

ジョブのスケジュール

HyperPod クラスターを正常に作成すると、クラスターユーザーはクラスターノード (ヘッドノードやコントローラーノード、ログインノード、ワーカーノードなど) にログインし、機械学習ワークロードを実行するジョブをスケジュールできます。詳細については、「 SageMaker HyperPod クラスター上のジョブ」を参照してください。

ハードウェア障害に対する耐障害性

SageMaker HyperPod はクラスターノードでヘルスチェックを実行し、ワークロードの自動再開機能を提供します。のクラスター回復機能を使用すると HyperPod、障害のあるノードが 16 個を超えるノードを持つクラスター内の正常なノードに置き換えられた後、最後に保存したチェックポイントからワークロードを再開できます。詳細については、「SageMaker HyperPod クラスターの耐障害性」を参照してください。

クラスターのログ記録と管理

SageMaker HyperPod リソース使用率メトリクスとライフサイクルログは、Amazon で検索し CloudWatch、タグ付けして SageMaker HyperPod リソースを管理できます。CreateCluster API 実行ごとに、 <cluster-name>-<timestamp>という名前の個別のログストリームが 形式で作成されます。ログストリームでは、ホスト名、失敗したライフサイクルスクリプトの名前、および stdoutや などの失敗したスクリプトからの出力を確認できますstderr。詳細については、「SageMaker HyperPod クラスター管理」を参照してください。

SageMaker ツールとの互換性

を使用して SageMaker HyperPod、 でクラスターを設定できます。 AWS 分散データ並列処理 () ライブラリ など SageMaker、 が提供する最適化された集合通信ライブラリ。 SageMaker SMDDPSMDDP ライブラリは、 に最適化された AllGather オペレーションを実装します。 AWS NVIDIA A100 を搭載した最もパフォーマンスの高い SageMaker 機械学習インスタンス用の コンピューティングおよびネットワークインフラストラクチャGPUs。詳細については、「で Slurm を使用して分散トレーニングワークロードを実行する HyperPod」を参照してください。