Slurm 내보내기 대시보드 노드 내보내기 대시보드 NVIDIA DCGM 내보내기 대시보드 EFA 지표 대시보드 FSx Lustre 지표 대시보드용

내보낸 지표 참조

다음 섹션에서는 SageMaker HyperPod 관찰 가능성을 SageMaker HyperPod 위해 AWS CloudFormation 스택을 성공적으로 구성할 때 에서 Amazon Managed Service for Prometheus로 내보낸 지표의 포괄적인 목록을 제공합니다. Amazon Managed Grafana 대시보드에서 시각화된 이러한 지표 모니터링을 시작할 수 있습니다.

Slurm 내보내기 대시보드

에서 Slurm 클러스터의 시각화된 정보를 제공합니다 SageMaker HyperPod.

지표 유형

클러스터 개요: 노드, 작업 및 해당 상태의 총 수를 표시합니다.
작업 지표: 시간 경과에 따른 작업 수 및 상태 시각화.
노드 지표: 노드 상태, 할당 및 사용 가능한 리소스를 표시합니다.
파티션 지표: CPU, 메모리 및 GPU 사용률과 같은 파티션별 지표를 모니터링합니다.
작업 효율성: 사용된 리소스를 기반으로 작업 효율성을 계산합니다.

지표 목록

지표 이름	설명
`slurm_job_count`	Slurm 클러스터의 총 작업 수
`slurm_job_state_count`	각 상태의 작업 수(예: 실행 중, 보류 중, 완료됨)
`slurm_node_count`	Slurm 클러스터의 총 노드 수
`slurm_node_state_count`	각 상태의 노드 수(예: 유휴, 할당, 혼합)
`slurm_partition_node_count`	각 파티션의 노드 수
`slurm_partition_job_count`	각 파티션의 작업 수
`slurm_partition_alloc_cpus`	각 파티션CPUs에 할당된 총 수
`slurm_partition_free_cpus`	각 파티션CPUs에서 사용 가능한 총 수
`slurm_partition_alloc_memory`	각 파티션에 할당된 총 메모리
`slurm_partition_free_memory`	각 파티션에서 사용 가능한 총 메모리
`slurm_partition_alloc_gpus`	각 파티션GPUs에 할당된 총계
`slurm_partition_free_gpus`	각 파티션GPUs에서 사용 가능한 합계

노드 내보내기 대시보드

HyperPod 클러스터 노드에서 Prometheus 노드 내보내기가 수집한 시스템 지표의 시각화된 정보를 제공합니다.

지표 유형

시스템 개요: CPU 로드 평균 및 메모리 사용량 표시.
메모리 지표: 총 메모리, 여유 메모리 및 스왑 공간을 포함한 메모리 사용률 시각화.
디스크 사용량: 디스크 공간 사용률 및 가용성을 모니터링합니다.
네트워크 트래픽: 시간 경과에 따라 수신 및 전송되는 네트워크 바이트를 표시합니다.
파일 시스템 지표: 파일 시스템 사용량 및 가용성 분석.
디스크 I/O 지표: 디스크 읽기 및 쓰기 활동을 시각화합니다.

지표 목록

내보낸 지표의 전체 목록은 노드 내보내기 및 Procfs GitHub 리포지토리를 참조하세요. 다음 표에는 CPU 로드, 메모리 사용량, 디스크 공간 및 네트워크 활동과 같은 시스템 리소스 사용률에 대한 통찰력을 제공하는 지표의 하위 집합이 나와 있습니다.

지표 이름	설명
`node_load1`	1분 로드 평균
`node_load5`	5분 로드 평균
`node_load15`	15분 로드 평균
`node_memory_MemTotal`	총 시스템 메모리
`node_memory_MemFree`	무료 시스템 메모리
`node_memory_MemAvailable`	프로세스에 할당할 수 있는 메모리
`node_memory_Buffers`	커널에서 버퍼링에 사용하는 메모리
`node_memory_Cached`	커널에서 파일 시스템 데이터를 캐싱하는 데 사용되는 메모리
`node_memory_SwapTotal`	사용 가능한 총 스왑 공간
`node_memory_SwapFree`	자유 스왑 공간
`node_memory_SwapCached`	한 번 교체된 메모리는 다시 교체되었지만 여전히 교체 중입니다.
`node_filesystem_avail_bytes`	사용 가능한 디스크 공간 바이트
`node_filesystem_size_bytes`	바이트 단위의 총 디스크 공간
`node_filesystem_free_bytes`	바이트 단위의 여유 디스크 공간
`node_network_receive_bytes`	수신된 네트워크 바이트
`node_network_transmit_bytes`	전송된 네트워크 바이트
`node_disk_read_bytes`	디스크 바이트 읽기
`node_disk_written_bytes`	기록된 디스크 바이트

NVIDIA DCGM 내보내기 대시보드

NVIDIA DCGM 내보내기 에서 수집한 NVIDIA GPU 지표의 시각화된 정보를 제공합니다.

지표 유형

GPU 개요: GPU 사용률, 온도, 전력 사용량 및 메모리 사용량 표시.
온도 지표: 시간 경과에 따른 온도 시각화. GPU
전력 사용량: GPU 전력 소비 및 전력 사용량 추세 모니터링.
메모리 사용률: 사용된 GPU 메모리, 사용 가능한 메모리 및 총 메모리를 포함한 메모리 사용량 분석.
팬 속도: GPU 팬 속도 및 변형 표시.
ECC 오류: GPU 메모리 ECC 오류 및 보류 중인 오류 추적.

지표 목록

다음 표에는 클록 주파수, 온도, 전력 사용량, 메모리 사용률, 팬 속도 및 오류 지표를 포함하여 NVIDIA GPU 상태와 성능에 대한 통찰력을 제공하는 지표 목록이 나와 있습니다.

지표 이름	설명
`DCGM_FI_DEV_SM_CLOCK`	SM 클럭 빈도(MHz)
`DCGM_FI_DEV_MEM_CLOCK`	메모리 클럭 빈도(MHz)
`DCGM_FI_DEV_MEMORY_TEMP`	메모리 온도(C)
`DCGM_FI_DEV_GPU_TEMP`	GPU 온도(C)
`DCGM_FI_DEV_POWER_USAGE`	전력 소비(W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	부팅 이후 총 에너지 소비(mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	총 PCIe 재시도 횟수
`DCGM_FI_DEV_MEM_COPY_UTIL`	메모리 사용률(%)
`DCGM_FI_DEV_ENC_UTIL`	인코더 사용률(%)
`DCGM_FI_DEV_DEC_UTIL`	디코더 사용률(%)
`DCGM_FI_DEV_XID_ERRORS`	발생한 마지막 XID 오류의 값
`DCGM_FI_DEV_FB_FREE`	프레임 버퍼 메모리 없음(MiB)
`DCGM_FI_DEV_FB_USED`	사용된 프레임 버퍼 메모리(MiB)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	모든 레인의 총 NVLink 대역폭 카운터 수
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	vGPU 라이선스 상태
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	수정할 수 없는 오류에 대해 다시 매핑된 행 수
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	수정 가능한 오류에 대해 다시 매핑된 행 수
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	행 재매핑 실패 여부

EFA 지표 대시보드

EFA 노드 내보내기 에서 수집한 P 인스턴스에 장착된 Amazon Elastic Fabric Adapter(EFA)의 지표에 대한 시각화된 정보를 제공합니다.

지표 유형

EFA 오류 지표: 할당 오류, 명령 오류 및 메모리 맵 오류와 같은 오류를 시각화합니다.
EFA 네트워크 트래픽: 수신 및 전송된 바이트, 패킷 및 작업 요청을 모니터링합니다.
EFA RDMA 성능: 전송된 바이트 및 오류율을 포함한 RDMA 읽기 및 쓰기 작업 분석.
EFA 포트 수명: 시간 경과에 따른 EFA 포트 수명 표시.
EFA keep-alive 패킷: 수신된 keep-alive 패킷 수를 추적합니다.

지표 목록

다음 표에는 오류, 완료된 명령, 네트워크 트래픽 및 리소스 사용률을 포함하여 EFA 작업의 다양한 측면에 대한 통찰력을 제공하는 지표 목록이 나와 있습니다.

지표 이름	설명
`node_amazonefa_info`	/sys/class/infiniband/의 숫자가 아닌 데이터는 값이 항상 1입니다.
`node_amazonefa_lifespan`	포트 수명
`node_amazonefa_rdma_read_bytes`	를 사용하여 읽은 바이트 수 RDMA
`node_amazonefa_rdma_read_resp_bytes`	의 읽기 응답 바이트 수 RDMA
`node_amazonefa_rdma_read_wr_err`	의 읽기 쓰기 오류 수 RDMA
`node_amazonefa_rdma_read_wrs`	의 읽기 rs 수 RDMA
`node_amazonefa_rdma_write_bytes`	로 작성된 바이트 수 RDMA
`node_amazonefa_rdma_write_recv_bytes`	로 쓰고 받은 바이트 수 RDMA
`node_amazonefa_rdma_write_wr_err`	오류와 함께 작성된 바이트 수 RDMA
`node_amazonefa_rdma_write_wrs`	쓰기 wrs 바이트 수 RDMA
`node_amazonefa_recv_bytes`	수신된 바이트 수
`node_amazonefa_recv_wrs`	수신된 바이트 wrs 수
`node_amazonefa_rx_bytes`	수신된 바이트 수
`node_amazonefa_rx_drops`	삭제된 패킷 수
`node_amazonefa_rx_pkts`	수신된 패킷 수
`node_amazonefa_send_bytes`	전송된 바이트 수
`node_amazonefa_send_wrs`	전송된 wrs 수
`node_amazonefa_tx_bytes`	전송된 바이트 수
`node_amazonefa_tx_pkts`	전송된 패킷 수

FSx Lustre 지표 대시보드용

Amazon for Lustre 파일 시스템에서 Amazon 에서 수집한 지표에 FSx 대한 시각화된 정보를 제공합니다 CloudWatch.

참고

Grafana FSx for Lustre 대시보드는 Amazon을 데이터 소스 CloudWatch 로 사용하며, 이는 Amazon Managed Service for Prometheus를 사용하도록 구성한 다른 대시보드와 다릅니다. FSx for Lustre 파일 시스템과 관련된 지표를 정확하게 모니터링하고 시각화하려면 FSx for Lustre 대시보드가 Amazon을 데이터 소스 CloudWatch 로 사용하도록 구성하여 FSx for Lustre 파일 시스템이 배포되는 AWS 리전 위치를 동일하게 지정합니다.

지표 유형

DataReadBytes: 파일 시스템 읽기 작업에 대한 바이트 수입니다.
DataWriteBytes: 파일 시스템 쓰기 작업에 대한 바이트 수입니다.
DataReadOperations: 읽기 작업 수입니다.
DataWriteOperations: 쓰기 작업 수입니다.
MetadataOperations: 메타 데이터 작업 수입니다.
FreeDataStorageCapacity: 사용 가능한 스토리지 용량입니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon Managed Grafana 워크스페이스 설정

클러스터 복원력