기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
를 사용하여 작업 실행 SageMaker HyperPod CLI
작업을 실행하려면 클러스터에 Kubeflow 교육 운영자를 설치해야 합니다. EKS 자세한 내용은 Helm을 사용하여 Amazon EKS 클러스터에 패키지 설치 단원을 참조하십시오.
hyperpod get-cluster
명령을 실행하여 사용 가능한 HyperPod 클러스터 목록을 가져옵니다.
hyperpod get-clusters
를 hyperpod connect-cluster
실행하여 EKS 클러스터를 오케스트레이션하는 SageMaker HyperPod CLI 클러스터로 구성합니다. HyperPod
hyperpod connect-cluster --name <hyperpod-cluster-name>
hyperpod start-job
명령을 사용하여 작업을 실행합니다. 다음 명령은 필수 옵션이 포함된 명령을 보여줍니다.
hyperpod start-job \ --job-name
<job-name>
--image<docker-image-uri>
--entry-script<entrypoint-script>
--instance-type<ml.instance.type>
--node-count<integer>
이 hyperpod start-job
명령에는 작업 복원력을 위한 다양한 옵션도 함께 제공됩니다.
작업 자동 재개 활성화
이 hyperpod start-job
명령에는 작업 자동 재개를 지정하는 다음과 같은 옵션도 있습니다. SageMaker HyperPod노드 복구 기능을 사용할 수 있도록 작업 자동 재개를 활성화하려면 restart-policy
옵션 값을 로 설정해야 합니다. OnFailure
작업은 접두사가 붙은 네임스페이스나 kubeflow
네임스페이스에서 실행되어야 합니다. hyperpod
-
[--auto-resume<bool>] #Optional, 실패 후 작업 자동 재개 활성화, 기본값은 false입니다.
-
[--max-retry<int>] #Optional, 자동 재개가 참인 경우, 지정되지 않은 경우 최대 재시도 기본값은 1입니다.
-
<enum>[--재시작 정책] #Optional, 정책을 다시 시작합니다. PyTorchJob 사용 가능한 값은
Always
,OnFailure
또는 입니다.Never
ExitCode
기본값은OnFailure
입니다.
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
예약 옵션을 사용하여 작업 실행
이 hyperpod start-job
명령에는 큐 메커니즘을 사용하여 작업을 설정하는 다음 옵션이 있습니다.
참고
클러스터에 Kueue가
-
[--scheduler-type<enum>] #Optional, 스케줄러 유형을 지정합니다. 기본값은
Kueue
입니다. -
[--queue-name<string>] #Optional, 작업과 함께 제출하려는 로컬 큐
또는 클러스터 큐의 이름을 지정합니다. 대기열은 클러스터 관리자가 생성해야 합니다. -
[--priority<string>] #Optional, 클러스터 관리자가 생성해야 하는 워크로드 우선 순위 클래스의
이름을 지정합니다.
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
구성 파일에서 작업 실행
또는 작업에 필요한 모든 매개 변수가 들어 있는 작업 구성 파일을 만든 다음 --config-file 옵션을 사용하여 이 구성 파일을 hyperpod
start-job
명령에 전달할 수 있습니다. 이 경우
-
필수 매개 변수를 사용하여 작업 구성 파일을 생성합니다. 기본 구성 파일은 SageMaker HyperPod CLI GitHub 저장소의 작업 구성 파일을 참조하십시오.
-
다음과 같이 구성 파일을 사용하여 작업을 시작합니다.
hyperpod start-job --config-file
/path/to/test_job.yaml
hyperpod
start-job
명령의 개별 매개 변수 목록에 대한 자세한 내용은 README.md
SageMaker HyperPod CLI GitHub 저장소의 작업 제출