자동 노드 복구 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

자동 노드 복구

클러스터 생성 또는 업데이트 중에 클러스터 관리자 사용자는 클러스터 수준의 Automatic(권장) 및 None 사이에서 노드(인스턴스) 복구 옵션을 선택할 수 있습니다. Automatic로 설정하면 SageMaker HyperPod가 자동으로 재부팅되거나 결함이 있는 노드를 교체합니다.

중요

Automatic 옵션을 설정하는 것이 좋습니다.

자동 노드 복구는 상태 모니터링 에이전트, 기본 상태 확인 및 심층 상태 확인에서 문제가 발견될 때 실행됩니다. None로 설정하면 상태 모니터링 에이전트는 오류가 감지될 때 인스턴스에 레이블을 지정하지만 영향을 받는 노드에서 복구 작업을 자동으로 시작하지는 않습니다. 이 옵션은 권장되지 않습니다.