を使用してジョブを実行する SageMaker HyperPod CLI - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

を使用してジョブを実行する SageMaker HyperPod CLI

ジョブを実行するには、Kubeflow Training Operator がEKSクラスターにインストールされていることを確認してください。詳細については、「Helm を使用して Amazon EKSクラスターにパッケージをインストールする」を参照してください。

hyperpod get-cluster コマンドを実行して、使用可能な HyperPod クラスターのリストを取得します。

hyperpod get-clusters

を実行してhyperpod connect-cluster、EKSクラスターを SageMaker HyperPod CLIオーケストレーションする HyperPod クラスターで を設定します。

hyperpod connect-cluster --name <hyperpod-cluster-name>

hyperpod start-job コマンドを使用してジョブを実行します。次のコマンドは、必要なオプションを指定して コマンドを示しています。

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

hyperpod start-job コマンドには、ジョブの耐障害性に関するさまざまなオプションも付属しています。

ジョブの自動再開の有効化

hyperpod start-job コマンドには、ジョブの自動再開を指定するための以下のオプションもあります。ジョブの自動再開を有効にしてノード障害耐性機能を使用するには SageMaker HyperPod、 restart-policyオプションの値を に設定する必要がありますOnFailure。ジョブは、 kubeflow名前空間または というプレフィックスが付いた namaspace で実行されている必要がありますhyperpod

  • [--auto-resume <bool>] #Optional、失敗後にジョブの自動再開を有効にする、デフォルトは false

  • [--max-retry <int>] #オプション、自動再開が true の場合、指定しない場合の最大再試行デフォルト値は 1 です

  • [--restart-policy <enum>] #Optional, PyTorchJob restart policy。使用できる値は、AlwaysOnFailureNeverまたは ですExitCode。デフォルト値は OnFailure です。

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

スケジューリングオプションを使用したジョブの実行

hyperpod start-job コマンドには、キューイングメカニズムを使用してジョブをセットアップするための以下のオプションがあります。

注記

EKS クラスターに Kueue をインストールする必要があります。をインストールしていない場合は、「」の手順に従いますHelm を使用して Amazon EKSクラスターにパッケージをインストールする

  • [--scheduler-type <enum>] #オプション、スケジューラタイプを指定します。デフォルト: Kueue

  • [--queue-name <string>] #オプション、ジョブで送信するローカルキューまたはクラスターキューの名前を指定します。キューはクラスター管理者が作成する必要があります。

  • [--priority <string>] #Optional、クラスター管理者が作成する必要があるワークロード優先度クラスの名前を指定します。

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

設定ファイルからのジョブの実行

別の方法として、ジョブに必要なすべてのパラメータを含むジョブ設定ファイルを作成し、--config-file オプションを使用してこの設定ファイルを hyperpod start-job コマンドに渡すこともできます。この場合は以下のようになります。

  1. 必要なパラメータを使用してジョブ設定ファイルを作成します。ベースライン設定ファイル については、 SageMaker HyperPod CLI GitHub リポジトリのジョブ設定ファイルを参照してください。 https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-run-jobs-hyperpod-cli.html#sagemaker-hyperpod-eks-hyperpod-cli-from-config

  2. 次のように、設定ファイルを使用してジョブを開始します。

    hyperpod start-job --config-file /path/to/test_job.yaml

hyperpod start-job コマンドの個々のパラメータのリストの詳細については、README.md SageMaker HyperPod CLI GitHub リポジトリの にある「ジョブの送信」セクションを参照してください。