SageMaker HyperPod 클러스터 구성 업데이트 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod 클러스터 구성 업데이트

update-cluster를 실행하여 클러스터 구성을 업데이트합니다.

참고

EKS 클러스터가 생성된 후에는 클러스터가 연결된 클러스터 정보를 HyperPod 변경할 수 없습니다.

참고

클러스터에서 심층 상태 확인이 실행 중인 경우 예상대로 작동하지 API 않습니다. 심층 상태 확인이 진행 중이라는 오류 메시지가 표시될 수 있습니다. 클러스터를 업데이트하려면 심층 상태 확인이 완료될 때까지 기다려야 합니다.

  1. JSON 형식의 UpdateCluster 요청 파일을 생성합니다. 업데이트할 올바른 클러스터 이름과 인스턴스 그룹 이름을 지정해야 합니다. 인스턴스 유형, 인스턴스 수, 수명 주기 구성 진입점 스크립트 및 스크립트 경로를 변경할 수 있습니다.

    1. 에서 업데이트하려는 클러스터의 이름을 ClusterName지정합니다.

    2. InstanceGroupName의 경우

      1. 기존 인스턴스 그룹을 업데이트하려면 업데이트하려는 인스턴스 그룹의 이름을 지정합니다.

      2. 새 인스턴스 그룹을 추가하려면 클러스터에 없는 새 이름을 지정합니다.

    3. InstanceType의 경우

      1. 기존 인스턴스 그룹을 업데이트하려면 처음에 지정한 인스턴스 유형을 그룹에 일치시켜야 합니다.

      2. 새 인스턴스 그룹을 추가하려면 그룹을 구성할 인스턴스 유형을 지정합니다.

    4. InstanceCount의 경우

      1. 기존 인스턴스 그룹을 업데이트하려면 현재 인스턴스 수보다 큰 정수를 지정합니다. 현재는 인스턴스 수만 늘릴 수 있습니다.

      2. 새 인스턴스 그룹을 추가하려면 1 이상의 정수를 지정합니다.

    5. 의 경우 인스턴스 그룹을 업데이트하려는 OnCreate 대로 SourceS3Uri 및 의 값을 모두 변경할 LifeCycleConfig수 있습니다.

    6. ExecutionRole의 경우

      1. 기존 인스턴스 그룹을 업데이트하려면 클러스터 생성 중에 연결한 것과 동일한 IAM 역할을 계속 사용합니다.

      2. 새 인스턴스 그룹을 추가하려면 연결할 IAM 역할을 지정합니다.

    7. ThreadsPerCore의 경우

      1. 기존 인스턴스 그룹을 업데이트하려면 클러스터 생성 중에 지정한 것과 동일한 값을 계속 사용합니다.

      2. 새 인스턴스 그룹을 추가하려면 인스턴스 유형별로 허용되는 옵션 중에서 원하는 값을 선택할 수 있습니다. 자세한 내용은 인스턴스 유형을 검색하고 Amazon EC2 사용 설명서의 참조 테이블에서 코어의 코어당 유효한 스레드 CPU 및 인스턴스 유형당 CPU 코어당 스레드를 참조하세요.

    8. OnStartDeepHealthChecks의 경우 InstanceStressInstanceConnectivity를 추가하여 를 활성화합니다심층 상태 확인.

    9. 의 경우 자동 노드 복구를 활성화Automatic하도록 NodeRecovery지정합니다. 는 상태 모니터링 에이전트에서 문제가 발견될 때 인스턴스(노드)를 SageMaker HyperPod 교체하거나 재부팅합니다.

    다음 코드 조각은 사용할 수 있는 JSON 요청 파일 템플릿입니다. 이 의 요청 구문 및 파라미터에 대한 자세한 내용은 UpdateCluster API 참조를 API참조하세요.

    // update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "string", "OnCreate": "string" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "NodeRecovery": "Automatic" }
  2. 다음 update-cluster 명령을 실행하여 요청을 제출합니다.

    aws sagemaker update-cluster \ --cli-input-json file://complete/path/to/update_cluster.json