SageMaker HyperPod CLI를 사용하여 작업 실행 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod CLI를 사용하여 작업 실행

작업을 실행하려면 EKS 클러스터에 Kubeflow 훈련 연산자를 설치했는지 확인합니다. 자세한 내용은 헬름을 사용하여 Amazon EKS 클러스터에 패키지 설치 섹션을 참조하세요.

hyperpod get-cluster 명령을 실행하여 사용 가능한 HyperPod 클러스터 목록을 가져옵니다.

hyperpod get-clusters

hyperpod connect-cluster를 실행하여 HyperPod 클러스터를 오케스트레이션하는 EKS 클러스터를 사용하여 SageMaker HyperPod CLI를 구성합니다.

hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

작업을 실행하여 hyperpod start-job 명령을 실행합니다. 다음 명령은 필수 옵션이 있는 명령을 보여줍니다.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

hyperpod start-job 명령에는 작업 자동 재개 및 작업 예약과 같은 다양한 옵션도 함께 제공됩니다.

작업 자동 재개 활성화

hyperpod start-job 명령에는 작업 자동 재개를 지정하는 다음 옵션도 있습니다. SageMaker HyperPod 노드 복원력 기능을 사용하여 작업 자동 재개를 활성화하려면 restart-policy 옵션의 값을 OnFailure로 설정해야 합니다. 작업은 kubeflow 네임스페이스 또는 접두사가 hyperpod인 네임스페이스에서 실행되어야 합니다.

  • [--auto-resume <bool>] #Optional, 실패 후 작업 자동 재개를 활성화하면 기본값은 false입니다

  • [--max-retry <int>] #Optional, auto-resume이 true인 경우 max-retry 기본값은 지정되지 않은 경우 1입니다

  • [--restart-policy <enum>] #Optional, PyTorchJob 재시작 정책. 허용 가능한 값은 Always, OnFailure, Never 또는 ExitCode입니다. 기본값은 OnFailure입니다.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

예약 옵션을 사용하여 작업 실행

hyperpod start-job 명령에는 대기열 메커니즘을 사용하여 작업을 설정하는 다음 옵션이 있습니다.

참고

EKS 클러스터에 Kueue를 설치해야 합니다. 를 설치하지 않은 경우의 지침을 따릅니다SageMaker HyperPod 작업 거버넌스 설정.

  • [--scheduler-type <enum>] #Optional, 스케줄러 유형을 지정합니다. 기본값은 Kueue입니다.

  • [--queue-name <string>] #Optional, 작업과 함께 제출하려는 로컬 대기열 또는 클러스터 대기열의 이름을 지정합니다. 대기열은를 사용하여 클러스터 관리자가 생성해야 합니다CreateComputeQuota.

  • [--priority <string>] #Optional, 클러스터 관리자가 생성해야 하는 워크로드 우선순위 클래스의 이름을 지정합니다.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

구성 파일에서 작업 실행

또는 작업에 필요한 모든 파라미터가 포함된 작업 구성 파일을 생성한 다음 --config-file 옵션을 사용하여 이 구성 파일을 hyperpod start-job 명령에 전달할 수 있습니다. 이 경우

  1. 필요한 파라미터를 사용하여 작업 구성 파일을 생성합니다. 기본 구성 파일은 SageMaker HyperPod CLI GitHub 리포지토리의 작업 구성 파일을 참조하세요.

  2. 다음과 같이 구성 파일을 사용하여 작업을 시작합니다.

    hyperpod start-job --config-file /path/to/test_job.yaml
작은 정보

hyperpod start-job 명령의 전체 파라미터 목록은 SageMaker HyperPod CLI GitHub 리포지토리의 README.md에서 작업 제출 섹션을 참조하세요.