Amazon에서 오케스트레이션한 SageMaker HyperPod 클러스터에 대한 관찰 가능성 EKS - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon에서 오케스트레이션한 SageMaker HyperPod 클러스터에 대한 관찰 가능성 EKS

SageMaker HyperPod 클러스터 리소스 및 소프트웨어 구성 요소를 포괄적으로 관찰하려면 클러스터를 Amazon CloudWatch Container Insights , Amazon Managed Service for Prometheus 및 Amazon Managed Grafana 와 통합합니다.

Amazon Managed Service for Prometheus와의 통합을 통해 클러스터 리소스와 관련된 지표를 내보낼 수 HyperPod 있으므로 성능, 사용률 및 상태에 대한 인사이트를 얻을 수 있습니다. Amazon Managed Grafana와의 통합을 통해 클러스터의 동작을 모니터링하고 분석하기 위한 직관적인 인터페이스를 제공하는 다양한 Grafana 대시보드를 통해 이러한 지표를 시각화할 수 있습니다. 이러한 서비스를 활용하면 HyperPod 클러스터를 중앙 집중식으로 통합하여 분산된 훈련 워크로드의 사전 모니터링, 문제 해결 및 최적화를 촉진할 수 있습니다.

작은 정보

실제 예제와 솔루션을 찾으려면 워크숍의 Amazon 지원 의 관찰 가능성 섹션을 참조하세요. EKS SageMaker HyperPod

다음 주제로 이동하여 SageMaker HyperPod 클러스터 관찰 가능성을 설정합니다.