제안된 복원력 구성 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

제안된 복원력 구성

심층 상태 확인이 활성화되면 새 인스턴스가 HyperPod 클러스터에 추가될 때마다(생성 클러스터 또는 자동 노드 교체 중) 새 인스턴스는 약 2시간 동안 심층 상태 확인 프로세스(인스턴스 수준 스트레스 테스트)를 거칩니다. 다음은 가능한 경우에 따라 권장되는 복원력 구성 조합입니다.

  1. 사례 : 백업 리소스로 클러스터 내에 추가 예비 노드가 있거나(전체 용량을 사용하지 않음) 오류가 덜 발생하는 인스턴스를 가져오기 위해 심층 상태 확인 프로세스를 약 2시간 동안 기다릴 수 있는 경우.

    권장 사항 : 클러스터 수명 주기 전반에 걸쳐 심층 상태 확인 구성을 활성화합니다. 노드 자동 복구 구성은 기본적으로 활성화되어 있습니다.

  2. 사례 : 추가 백업 노드가 없는 경우(일부 훈련 로드에는 용량이 완전히 사용됨). 가능한 한 빨리 교체 노드를 가져와 훈련 작업을 재개하려고 합니다.

    권장 사항 : 클러스터 생성 중에 심층 상태 확인을 활성화한 다음 클러스터가 생성된 후 심층 상태 확인 구성을 끕니다. 노드 자동 복구 구성은 기본적으로 활성화되어 있습니다.

  3. 사례 : 추가 백업 노드가 없고 ~2시간 심층 상태 확인 프로세스(소형 클러스터)를 기다리지 않으려는 경우.

    권장 사항: 클러스터 수명 주기 동안 심층 상태 확인 구성을 비활성화합니다. 노드 자동 복구 구성은 기본적으로 활성화되어 있습니다.

장애 발생 즉시 훈련 작업을 재개하려면 클러스터에 백업 리소스로 추가 예비 노드가 있는지 확인합니다.