SageMaker HyperPod 클러스터 리소스 모니터링 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod 클러스터 리소스 모니터링

SageMaker HyperPod 클러스터 리소스 및 소프트웨어 구성 요소를 포괄적으로 관찰하려면 클러스터를 Amazon Managed Service for PrometheusAmazon Managed Grafana 와 통합합니다. Amazon Managed Service for Prometheus와의 통합을 통해 HyperPod 클러스터 리소스와 관련된 지표를 내보낼 수 있으므로 성능, 사용률 및 상태에 대한 인사이트를 얻을 수 있습니다. Amazon Managed Grafana와의 통합을 통해 클러스터의 동작을 모니터링하고 분석하기 위한 직관적인 인터페이스를 제공하는 다양한 Grafana 대시보드를 통해 이러한 지표를 시각화할 수 있습니다. 이러한 서비스를 활용하면 HyperPod 클러스터에 대한 중앙 집중식 통합 뷰를 확보하여 분산 훈련 워크로드의 사전 모니터링, 문제 해결 및 최적화를 용이하게 할 수 있습니다.

작은 정보

실제 예제 및 솔루션을 찾으려면 SageMaker HyperPod 워크숍 도 참조하세요.

Amazon Managed Service for Prometheus 및 Amazon Managed Grafana SageMaker HyperPod 를 사용한 구성 개요입니다.

그림: 이 아키텍처 다이어그램은 Amazon Managed Service for Prometheus 및 Amazon Managed Grafana SageMaker HyperPod 를 사용한 구성의 개요를 보여줍니다.

다음 주제로 이동하여 SageMaker HyperPod 클러스터 관찰 가능성을 설정합니다.