SageMaker HyperPod クラスターを作成する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod クラスターを作成する

SageMaker HyperPod コンソール UI を使用して新しい SageMaker HyperPod クラスターを作成する方法については、次の手順を参照してください。

  1. で Amazon SageMaker コンソールを開きますhttps://console.aws.amazon.com/sagemaker/

  2. 左側のナビゲーションペインでHyperPod クラスターを選択します。

  3. SageMaker HyperPod ランディングページで、 HyperPod クラスターの作成 を選択します。

  4. クラスターの作成 HyperPod のドロップダウンメニューから、Amazon によってオーケストレーションされた EKSを選択します。

  5. Amazon EKSクラスターリストから、新しいEKSクラスターを設定する HyperPod クラスターを選択します。

    1. 新しいEKSクラスターを作成する必要がある場合は、EKSクラスターの作成 を選択します。Amazon EKSコンソールを開くことなく、EKSクラスターリストページから作成できます。

      注記

      選択したVPCサブネット HyperPod はプライベートである必要があります。

    2. 新しいEKSクラスター作成リクエストを送信したら、EKSクラスターがアクティブになるまで待ちます。

    3. 「」の指示に従って Helm チャートをインストールしますHelm を使用して Amazon EKSクラスターにパッケージをインストールする

    4. EKS クラスターの作成が完了したら、 HyperPod クラスターの作成を選択し、 によって再度オーケストレーションEKSされます。新しいEKSクラスターを検索して選択できるはずです。続行するには、「 を選択」を選択します。

  6. 新しい HyperPodクラスターを設定するページで、名前、クラスターの耐障害性機能を有効にするオプション、タグなど、 HyperPod クラスターの基本情報を設定します。

  7. クラスター名 には、新しいクラスターの名前を指定します。

  8. クラスターの障害耐性 - ノードリカバリ の場合、 を指定Automaticして自動ノードリカバリを有効にします。 SageMaker HyperPod は、ヘルスモニタリングエージェントが問題を検出したときにインスタンス (ノード) を置き換えるか再起動します。

  9. タグ では、キーと値のペアを新しいクラスターに追加し、クラスターを AWS リソースとして管理します。詳細については、「 AWS リソースのタグ付け」を参照してください。

  10. ステップ 2: インスタンスグループを設定する で、インスタンスグループの作成 を選択します。各インスタンスグループは異なる方法で設定でき、さまざまなインスタンスタイプを持つ複数のインスタンスグループで構成される異種クラスターを作成できます。インスタンスグループ設定の作成ポップアップウィンドウで、インスタンスグループ設定情報を入力します。

    インスタンスグループポップアップページを作成し、UI ガイダンスに従って新しいインスタンスグループを設定します。

    1. インスタンスグループ名 には、インスタンスグループの名前を指定します。

    2. インスタンスタイプを選択 で、インスタンスグループのインスタンスを選択します。

    3. 数量 では、クラスターの使用についてインスタンスクォータを超えない整数を指定します。

    4. ライフサイクル設定スクリプトを準備し、 などの Amazon S3 バケットにアップロードしますs3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/

      クイックスタートするには、 AWS ome Distributed Training GitHub リポジトリon_create.shからサンプルスクリプトをダウンロードし、S3 バケットにアップロードします。このスクリプトは、Pod コンテナからログを収集/var/log/provision/provisioning.log CloudWatch するために必要なログファイルを設定します。追加のセットアップ手順、一連のセットアップスクリプト、または HyperPod クラスタープロビジョニング段階で実行されるコマンドを含めることもできます。

    5. ライフサイクルスクリプト URIの S3 バケット には、ライフサイクルスクリプトが保存されている Amazon S3 パスを入力します。

    6. ベース Amazon S3 パス のエントリポイントスクリプト へのディレクトリパスには、ライフサイクルスクリプトファイル への Amazon S3 パス の下にライフサイクルスクリプト のファイル名を入力します。提供されたサンプルスクリプトを使用する場合は、 と入力しますon_create.sh

    7. IAM ロールについては、 セクションに従って、 SageMaker HyperPod リソース用に作成したIAMロールを選択しますIAM の ロール SageMaker HyperPod

    8. 詳細設定 では、次のオプション設定を設定できます。

      1. (オプション) コア あたりのスレッド の場合、マルチスレッドを無効にする1には を、マルチスレッドを有効にする2には を指定します。マルチスレッドをサポートするインスタンスタイプを確認するには、Amazon EC2ユーザーガイドCPU「インスタンスタイプごとのコアおよびCPUコアあたりのスレッドのリファレンステーブル」を参照してください。

      2. (オプション) 追加のインスタンスストレージ設定 では、1~16384 の整数を指定して、追加の Elastic Block Store (EBS) ボリュームのサイズをギガバイト (GB) 単位で設定します。EBS ボリュームは、インスタンスグループの各インスタンスにアタッチされます。追加EBSボリュームのデフォルトのマウントパスは です/opt/sagemaker。クラスターが正常に作成されたら、クラスターインスタンス (ノード) SSHに入り、 df -h コマンドを実行してEBSボリュームが正しくマウントされているかどうかを確認できます。追加EBSボリュームをアタッチすると、Amazon Elastic Block Store ユーザーガイド「Amazon EBSボリューム」セクションで説明されているように、安定したオフインスタンスの独立した永続ストレージが提供されます。

  11. ディープヘルスチェック では、インスタンスで実行するアドバンストヘルスチェックを選択します。詳細については、「ディープヘルスチェック」を参照してください。

  12. ステップ 3: 詳細設定 で、クラスター内および in-and-outクラスターのネットワーク設定を設定します。Amazon で SageMaker HyperPod クラスターをオーケストレーションする場合EKS、 VPCは選択したEKSクラスターで設定された に自動的に設定されます。

  13. ステップ 4: を確認して作成しステップ 1 からステップ 3 まで設定した設定を確認し、クラスター作成リクエストの送信を完了します。

  14. クラスターのステータスが になったらInService、クラスターノードへのログインを開始できます。クラスターノードにアクセスして ML ワークロードの実行を開始するには、「」を参照してください SageMaker HyperPod クラスター上のジョブ