기본 상태 확인 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기본 상태 확인

SageMaker HyperPod 는 클러스터 생성 및 업데이트 중에 HyperPod 클러스터 인스턴스에 대한 기본 상태 확인 세트를 수행합니다. 이러한 기본 상태 확인은 오케스트레이터에 구애받지 않으므로 SageMaker HyperPod (Amazon EKS 또는 Slurm)에서 지원하는 기본 오케스트레이션 플랫폼에 관계없이 이러한 확인이 적용됩니다.

기본 상태 확인은 클러스터 인스턴스에서 액셀러레이터(GPU 및 Trainium 코어) 및 네트워크 디바이스(Elastic Fabric Adapter 또는 )와 같은 디바이스와 관련된 문제를 모니터링합니다EFA. 기본 클러스터 상태 확인 목록을 찾으려면 클러스터 상태 확인 섹션을 참조하세요.