를 사용하여 작업 실행 SageMaker HyperPod CLI - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

를 사용하여 작업 실행 SageMaker HyperPod CLI

작업을 실행하려면 클러스터에 Kubeflow 교육 운영자를 설치해야 합니다. EKS 자세한 내용은 Helm을 사용하여 Amazon EKS 클러스터에 패키지 설치 단원을 참조하십시오.

hyperpod get-cluster명령을 실행하여 사용 가능한 HyperPod 클러스터 목록을 가져옵니다.

hyperpod get-clusters

hyperpod connect-cluster 실행하여 EKS 클러스터를 오케스트레이션하는 SageMaker HyperPod CLI 클러스터로 구성합니다. HyperPod

hyperpod connect-cluster --name <hyperpod-cluster-name>

hyperpod start-job명령을 사용하여 작업을 실행합니다. 다음 명령은 필수 옵션이 포함된 명령을 보여줍니다.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

hyperpod start-job 명령에는 작업 복원력을 위한 다양한 옵션도 함께 제공됩니다.

작업 자동 재개 활성화

hyperpod start-job 명령에는 작업 자동 재개를 지정하는 다음과 같은 옵션도 있습니다. SageMaker HyperPod노드 복구 기능을 사용할 수 있도록 작업 자동 재개를 활성화하려면 restart-policy 옵션 값을 로 설정해야 합니다. OnFailure 작업은 접두사가 붙은 네임스페이스나 kubeflow 네임스페이스에서 실행되어야 합니다. hyperpod

  • [--auto-resume<bool>] #Optional, 실패 후 작업 자동 재개 활성화, 기본값은 false입니다.

  • [--max-retry<int>] #Optional, 자동 재개가 참인 경우, 지정되지 않은 경우 최대 재시도 기본값은 1입니다.

  • <enum>[--재시작 정책] #Optional, 정책을 다시 시작합니다. PyTorchJob 사용 가능한 값은Always, OnFailure 또는 입니다. Never ExitCode 기본값은 OnFailure입니다.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

예약 옵션을 사용하여 작업 실행

hyperpod start-job 명령에는 큐 메커니즘을 사용하여 작업을 설정하는 다음 옵션이 있습니다.

참고

클러스터에 Kueue가 설치되어 있어야 합니다. EKS 설치하지 않은 경우 의 지침을 따르십시오. Helm을 사용하여 Amazon EKS 클러스터에 패키지 설치

  • [--scheduler-type<enum>] #Optional, 스케줄러 유형을 지정합니다. 기본값은 Kueue입니다.

  • [--queue-name<string>] #Optional, 작업과 함께 제출하려는 로컬 큐 또는 클러스터 큐의 이름을 지정합니다. 대기열은 클러스터 관리자가 생성해야 합니다.

  • [--priority<string>] #Optional, 클러스터 관리자가 생성해야 하는 워크로드 우선 순위 클래스의 이름을 지정합니다.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

구성 파일에서 작업 실행

또는 작업에 필요한 모든 매개 변수가 들어 있는 작업 구성 파일을 만든 다음 --config-file 옵션을 사용하여 이 구성 파일을 hyperpod start-job 명령에 전달할 수 있습니다. 이 경우

  1. 필수 매개 변수를 사용하여 작업 구성 파일을 생성합니다. 기본 구성 파일은 SageMaker HyperPod CLI GitHub 저장소의 작업 구성 파일을 참조하십시오.

  2. 다음과 같이 구성 파일을 사용하여 작업을 시작합니다.

    hyperpod start-job --config-file /path/to/test_job.yaml

hyperpod start-job명령의 개별 매개 변수 목록에 대한 자세한 내용은 README.md SageMaker HyperPod CLI GitHub 저장소의 작업 제출 섹션을 참조하십시오.