翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
を使用してジョブを実行する SageMaker HyperPod CLI
ジョブを実行するには、Kubeflow Training Operator がEKSクラスターにインストールされていることを確認してください。詳細については、「Helm を使用して Amazon EKSクラスターにパッケージをインストールする」を参照してください。
hyperpod get-cluster
コマンドを実行して、使用可能な HyperPod クラスターのリストを取得します。
hyperpod get-clusters
を実行してhyperpod connect-cluster
、EKSクラスターをオーケストレーションする HyperPod クラスターで SageMaker HyperPod CLIを設定します。
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
hyperpod start-job
コマンドを使用してジョブを実行します。次のコマンドは、必要なオプションを含む コマンドを示しています。
hyperpod start-job \ --job-name
<job-name>
--image<docker-image-uri>
--entry-script<entrypoint-script>
--instance-type<ml.instance.type>
--node-count<integer>
hyperpod start-job
コマンドには、ジョブの耐障害性に関するさまざまなオプションも用意されています。
ジョブの自動再開の有効化
hyperpod start-job
コマンドには、ジョブの自動再開を指定する以下のオプションもあります。ジョブの自動再開を有効にしてノード障害耐性機能を使用するには SageMaker HyperPod、 restart-policy
オプションの値を に設定する必要がありますOnFailure
。ジョブは、kubeflow
名前空間または でプレフィックスが付けられた名前空間で実行されている必要がありますhyperpod
。
-
[--auto-resume <bool>] #オプション、失敗後にジョブの自動再開を有効にする、デフォルトは false
-
[--max-retry <int>] #オプション、自動再開が true の場合、指定されていない場合、max-retry のデフォルト値は 1 です
-
[--restart-policy <enum>] #Optional, PyTorchJob restart policy。使用可能な値は、
Always
、OnFailure
、Never
または ですExitCode
。デフォルト値はOnFailure
です。
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
スケジュールオプションを使用したジョブの実行
hyperpod start-job
コマンドには、キューイングメカニズムを使用してジョブをセットアップするための以下のオプションがあります。
注記
EKS クラスターに Kueue
-
[--scheduler-type <enum>] #オプション、スケジューラタイプを指定します。デフォルト:
Kueue
。 -
[--queue-name <string>] #Optional、ジョブで送信するローカルキュー
またはクラスターキュー の名前を指定します。キューはクラスター管理者が作成する必要があります。 -
[--priority <string>] #Optional、ワークロード優先度クラス
の名前を指定します。これはクラスター管理者が作成する必要があります。
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
設定ファイルからジョブを実行する
代わりに、ジョブに必要なすべてのパラメータを含むジョブ設定ファイルを作成し、--config-file オプションを使用してこの設定ファイルを hyperpod start-job
コマンドに渡します。この場合は以下のようになります。
-
必要なパラメータを使用してジョブ設定ファイルを作成します。ベースライン設定ファイル については、 SageMaker HyperPod CLI GitHub リポジトリのジョブ設定ファイルを参照してください。 https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-run-jobs-hyperpod-cli.html#sagemaker-hyperpod-eks-hyperpod-cli-from-config
-
次のように設定ファイルを使用してジョブを開始します。
hyperpod start-job --config-file
/path/to/test_job.yaml
hyperpod start-job
コマンドの個々のパラメータのリストの詳細については、 SageMaker HyperPod CLI GitHub リポジトリREADME.md
の「ジョブの送信