SageMaker HyperPod クラスター設定の更新 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod クラスター設定の更新

update-cluster を実行して、クラスターの設定を更新します。

注記

EKS クラスターの作成後にクラスターが関連付けられている HyperPodクラスター情報は変更できません。

注記

クラスターでディープヘルスチェックが実行されている場合、これは期待どおりに機能APIしません。ディープヘルスチェックが進行中であることを示すエラーメッセージが表示される場合があります。クラスターを更新するには、ディープヘルスチェックが完了するまで待つ必要があります。

  1. JSON 形式のUpdateClusterリクエストファイルを作成します。更新する適切なクラスター名とインスタンスグループ名を指定していることを確認してください。インスタンスタイプ、インスタンス数、ライフサイクル設定エントリポイントスクリプト、スクリプトへのパスを変更できます。

    1. にはClusterName、更新するクラスターの名前を指定します。

    2. InstanceGroupName

      1. 既存のインスタンスグループを更新するには、更新するインスタンスグループの名前を指定します。

      2. 新しいインスタンスグループを追加するには、クラスターに存在しない新しい名前を指定します。

    3. InstanceType

      1. 既存のインスタンスグループを更新するには、最初に指定したインスタンスタイプをグループに一致させる必要があります。

      2. 新しいインスタンスグループを追加するには、グループを設定するインスタンスタイプを指定します。

    4. InstanceCount

      1. 既存のインスタンスグループを更新するには、現在のインスタンス数より大きい整数を指定します。現在、インスタンスの数のみを増やすことができます。

      2. 新しいインスタンスグループを追加するには、1 以上の整数を指定します。

    5. ではLifeCycleConfig、インスタンスグループを更新するOnCreateときに、 SourceS3Uriと の両方の値を変更することができます。

    6. ExecutionRole

      1. 既存のインスタンスグループを更新するには、クラスターの作成時にアタッチしたのと同じIAMロールを使用し続けます。

      2. 新しいインスタンスグループを追加するには、アタッチするIAMロールを指定します。

    7. ThreadsPerCore

      1. 既存のインスタンスグループを更新するには、クラスターの作成時に指定した値と同じ値を使用し続けます。

      2. 新しいインスタンスグループを追加するには、インスタンスタイプごとに許可されるオプションから任意の値を選択できます。詳細については、インスタンスタイプを検索し、Amazon EC2ユーザーガイドの参照テーブルのコアあたりの有効なスレッドCPUと、インスタンスタイプあたりのCPUコアあたりのスレッドを参照してください。

    8. ではOnStartDeepHealthChecksInstanceStress InstanceConnectivityと を追加して を有効にしますディープヘルスチェック

    9. ではNodeRecovery、ヘルスモニタリングエージェントによって問題が見つかったときに、 を指定Automaticして自動ノードリカバリを有効にします。 はインスタンス (ノード) を SageMaker HyperPod 置き換えるか再起動します。

    次のコードスニペットは、使用できるJSONリクエストファイルテンプレートです。この のリクエスト構文とパラメータの詳細についてはAPI、 UpdateClusterAPIリファレンスを参照してください。

    // update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "string", "OnCreate": "string" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "NodeRecovery": "Automatic" }
  2. 次のupdate-clusterコマンドを実行して、リクエストを送信します。

    aws sagemaker update-cluster \ --cli-input-json file://complete/path/to/update_cluster.json