복원력 관련 쿠버네티스 레이블: SageMaker HyperPod - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

복원력 관련 쿠버네티스 레이블: SageMaker HyperPod

레이블은 쿠버네티스 오브젝트에 연결된 키-값 쌍입니다. SageMaker HyperPod 제공하는 상태 점검을 위해 다음 레이블을 소개합니다.

노드 상태 레이블

node-health-status레이블은 노드 상태를 나타내며 정상 노드에서 노드 선택기 필터의 일부로 사용됩니다.

레이블 설명
sagemaker.amazonaws.com/node-health-status: Schedulable 노드는 기본 상태 검사를 통과했으며 워크로드를 실행하는 데 사용할 수 있습니다. 이 상태 점검은 현재 Slurm 클러스터에 사용할 수 있는 SageMaker HyperPod 복원력 기능과 동일합니다.
sagemaker.amazonaws.com/node-health-status: Unschedulable 노드는 심층 상태 검사를 실행 중이며 워크로드를 실행하는 데 사용할 수 없습니다.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement 노드가 심층 상태 점검 또는 상태 모니터링 에이전트 검사에 실패하여 교체가 필요합니다. 자동 노드 복구가 활성화된 경우 노드가 자동으로 교체됩니다. SageMaker HyperPod
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot 노드가 심층 상태 점검 또는 상태 모니터링 에이전트 검사에 실패하여 재부팅이 필요합니다. 자동 노드 복구가 활성화된 경우 노드가 자동으로 재부팅됩니다. SageMaker HyperPod

심층 상태 점검 라벨

deep-health-check-status레이블은 특정 노드의 심층 상태 점검 진행 상황을 나타냅니다. Kubernetes 사용자가 전반적인 심층 상태 검사의 진행 상황을 빠르게 필터링하는 데 유용합니다.

레이블 설명
sagemaker.amazonaws.com/deep-health-check-status: InProgress 노드가 심층 상태 검사를 실행 중이며 워크로드를 실행하는 데 사용할 수 없습니다.
sagemaker.amazonaws.com/deep-health-check-status: Passed 노드가 심층 상태 점검 또는 상태 모니터링 에이전트 검사에 실패하여 교체가 필요합니다. 자동 노드 복구가 활성화된 경우 노드가 자동으로 교체됩니다. SageMaker HyperPod
sagemaker.amazonaws.com/deep-health-check-status: Failed 노드가 심층 상태 점검 또는 상태 모니터링 에이전트 검사에 실패하여 재부팅 또는 교체가 필요합니다. 자동 노드 복구가 활성화된 경우 노드가 자동으로 재부팅됩니다. SageMaker HyperPod

장애 유형 및 원인 레이블

다음 표에는 fault-typefault-reason 레이블에 대한 설명이 나와 있습니다.

  • fault-type레이블은 상태 점검이 실패할 경우의 상위 수준 결함 범주를 나타냅니다. 여기에는 심층 상태 점검 및 상태 모니터링 에이전트 검사에서 식별된 장애가 반영됩니다.

  • fault-reason레이블은 a와 관련된 자세한 장애 원인을 나타냅니다. fault-type

SageMaker HyperPod 라벨 사용 방법

다음 항목에서는 다양한 사례에 따른 라벨링 방법을 다룹니다.

심층 상태 점검 구성이 비활성화된 상태로 SageMaker HyperPod 클러스터에 노드를 추가하는 경우

새 노드가 클러스터에 추가되고 인스턴스 그룹에 대해 심층 상태 확인이 활성화되지 않은 경우 Slurm 클러스터에 대해 현재 사용 가능한 상태 확인과 동일한 SageMaker HyperPod 상태 확인을 SageMaker HyperPod 실행합니다.

상태 점검을 통과하면 노드에 다음 레이블이 표시됩니다.

sagemaker.amazonaws.com/node-health-status: Schedulable

상태 점검에 통과하지 못하면 노드가 종료되고 교체됩니다. 이 동작은 Slurm 클러스터의 SageMaker HyperPod 상태 점검 작동 방식과 동일합니다.

심층 상태 점검 구성이 활성화된 SageMaker HyperPod 클러스터에 노드를 추가하는 경우

새 노드가 SageMaker HyperPod 클러스터에 추가되고 인스턴스 그룹에 대한 심층 상태 점검 테스트가 활성화된 경우 HyperPod 먼저 노드를 오염시키고 노드에 대해 약 2시간의 심층 상태 확인/스트레스 테스트를 시작합니다. 심층 상태 점검 후 노드 레이블을 3회 출력할 수 있습니다.

  1. 심층 상태 점검 테스트를 통과한 경우

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. 심층 상태 점검 테스트가 실패하여 인스턴스를 교체해야 하는 경우

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. 심층 상태 점검 테스트가 실패하고 심층 상태 확인을 다시 실행하기 위해 인스턴스를 재부팅해야 하는 경우

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

인스턴스가 심층 상태 점검 테스트에 실패하는 경우 인스턴스는 항상 교체됩니다. 심층 상태 점검 테스트가 성공하면 노드의 오염이 제거됩니다.

노드에 컴퓨팅 장애가 발생한 경우

또한 SageMaker HyperPod 상태 모니터 에이전트는 각 노드의 상태를 지속적으로 모니터링합니다. 장애 (예: GPU 장애 및 드라이버 충돌) 를 감지하면 에이전트는 다음 레이블 중 하나로 노드를 표시합니다.

  1. 노드가 비정상이어서 교체해야 하는 경우

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. 노드가 비정상이어서 재부팅해야 하는 경우

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

또한 상태 모니터 에이전트는 노드 상태 문제를 감지하면 노드를 오염시킵니다.