기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
내보낸 지표 참조
다음 섹션에서는 SageMaker HyperPod 관찰 가능성을 SageMaker HyperPod 위해 AWS CloudFormation 스택을 성공적으로 구성할 때 에서 Amazon Managed Service for Prometheus로 내보낸 지표의 포괄적인 목록을 제공합니다. Amazon Managed Grafana 대시보드에서 시각화된 이러한 지표 모니터링을 시작할 수 있습니다.
Slurm 내보내기 대시보드
에서 Slurm 클러스터의 시각화된 정보를 제공합니다 SageMaker HyperPod.
지표 유형
-
클러스터 개요: 노드, 작업 및 해당 상태의 총 수를 표시합니다.
-
작업 지표: 시간 경과에 따른 작업 수 및 상태 시각화.
-
노드 지표: 노드 상태, 할당 및 사용 가능한 리소스를 표시합니다.
-
파티션 지표: CPU, 메모리 및 GPU 사용률과 같은 파티션별 지표를 모니터링합니다.
-
작업 효율성: 사용된 리소스를 기반으로 작업 효율성을 계산합니다.
지표 목록
지표 이름 | 설명 |
---|---|
slurm_job_count |
Slurm 클러스터의 총 작업 수 |
slurm_job_state_count |
각 상태의 작업 수(예: 실행 중, 보류 중, 완료됨) |
slurm_node_count
|
Slurm 클러스터의 총 노드 수 |
slurm_node_state_count
|
각 상태의 노드 수(예: 유휴, 할당, 혼합) |
slurm_partition_node_count
|
각 파티션의 노드 수 |
slurm_partition_job_count
|
각 파티션의 작업 수 |
slurm_partition_alloc_cpus
|
각 파티션CPUs에 할당된 총 수 |
slurm_partition_free_cpus
|
각 파티션CPUs에서 사용 가능한 총 수 |
slurm_partition_alloc_memory
|
각 파티션에 할당된 총 메모리 |
slurm_partition_free_memory
|
각 파티션에서 사용 가능한 총 메모리 |
slurm_partition_alloc_gpus
|
각 파티션GPUs에 할당된 총계 |
slurm_partition_free_gpus
|
각 파티션GPUs에서 사용 가능한 합계 |
노드 내보내기 대시보드
HyperPod 클러스터 노드에서 Prometheus 노드 내보내기가
지표 유형
-
시스템 개요: CPU 로드 평균 및 메모리 사용량 표시.
-
메모리 지표: 총 메모리, 여유 메모리 및 스왑 공간을 포함한 메모리 사용률 시각화.
-
디스크 사용량: 디스크 공간 사용률 및 가용성을 모니터링합니다.
-
네트워크 트래픽: 시간 경과에 따라 수신 및 전송되는 네트워크 바이트를 표시합니다.
-
파일 시스템 지표: 파일 시스템 사용량 및 가용성 분석.
-
디스크 I/O 지표: 디스크 읽기 및 쓰기 활동을 시각화합니다.
지표 목록
내보낸 지표의 전체 목록은 노드 내보내기
지표 이름 | 설명 |
---|---|
node_load1
|
1분 로드 평균 |
node_load5
|
5분 로드 평균 |
node_load15
|
15분 로드 평균 |
node_memory_MemTotal
|
총 시스템 메모리 |
node_memory_MemFree
|
무료 시스템 메모리 |
node_memory_MemAvailable
|
프로세스에 할당할 수 있는 메모리 |
node_memory_Buffers
|
커널에서 버퍼링에 사용하는 메모리 |
node_memory_Cached
|
커널에서 파일 시스템 데이터를 캐싱하는 데 사용되는 메모리 |
node_memory_SwapTotal
|
사용 가능한 총 스왑 공간 |
node_memory_SwapFree
|
자유 스왑 공간 |
node_memory_SwapCached
|
한 번 교체된 메모리는 다시 교체되었지만 여전히 교체 중입니다. |
node_filesystem_avail_bytes
|
사용 가능한 디스크 공간 바이트 |
node_filesystem_size_bytes
|
바이트 단위의 총 디스크 공간 |
node_filesystem_free_bytes
|
바이트 단위의 여유 디스크 공간 |
node_network_receive_bytes
|
수신된 네트워크 바이트 |
node_network_transmit_bytes
|
전송된 네트워크 바이트 |
node_disk_read_bytes
|
디스크 바이트 읽기 |
node_disk_written_bytes
|
기록된 디스크 바이트 |
NVIDIA DCGM 내보내기 대시보드
NVIDIA DCGM 내보내기
지표 유형
-
GPU 개요: GPU 사용률, 온도, 전력 사용량 및 메모리 사용량 표시.
-
온도 지표: 시간 경과에 따른 온도 시각화. GPU
-
전력 사용량: GPU 전력 소비 및 전력 사용량 추세 모니터링.
-
메모리 사용률: 사용된 GPU 메모리, 사용 가능한 메모리 및 총 메모리를 포함한 메모리 사용량 분석.
-
팬 속도: GPU 팬 속도 및 변형 표시.
-
ECC 오류: GPU 메모리 ECC 오류 및 보류 중인 오류 추적.
지표 목록
다음 표에는 클록 주파수, 온도, 전력 사용량, 메모리 사용률, 팬 속도 및 오류 지표를 포함하여 NVIDIA GPU 상태와 성능에 대한 통찰력을 제공하는 지표 목록이 나와 있습니다.
지표 이름 | 설명 |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
SM 클럭 빈도(MHz) |
DCGM_FI_DEV_MEM_CLOCK
|
메모리 클럭 빈도(MHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
메모리 온도(C) |
DCGM_FI_DEV_GPU_TEMP
|
GPU 온도(C) |
DCGM_FI_DEV_POWER_USAGE
|
전력 소비(W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
부팅 이후 총 에너지 소비(mJ) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
총 PCIe 재시도 횟수 |
DCGM_FI_DEV_MEM_COPY_UTIL
|
메모리 사용률(%) |
DCGM_FI_DEV_ENC_UTIL
|
인코더 사용률(%) |
DCGM_FI_DEV_DEC_UTIL
|
디코더 사용률(%) |
DCGM_FI_DEV_XID_ERRORS
|
발생한 마지막 XID 오류의 값 |
DCGM_FI_DEV_FB_FREE
|
프레임 버퍼 메모리 없음(MiB) |
DCGM_FI_DEV_FB_USED
|
사용된 프레임 버퍼 메모리(MiB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
모든 레인의 총 NVLink 대역폭 카운터 수 |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
vGPU 라이선스 상태 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
수정할 수 없는 오류에 대해 다시 매핑된 행 수 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
수정 가능한 오류에 대해 다시 매핑된 행 수 |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
행 재매핑 실패 여부 |
EFA 지표 대시보드
EFA 노드 내보내기
지표 유형
-
EFA 오류 지표: 할당 오류, 명령 오류 및 메모리 맵 오류와 같은 오류를 시각화합니다.
-
EFA 네트워크 트래픽: 수신 및 전송된 바이트, 패킷 및 작업 요청을 모니터링합니다.
-
EFA RDMA 성능: 전송된 바이트 및 오류율을 포함한 RDMA 읽기 및 쓰기 작업 분석.
-
EFA 포트 수명: 시간 경과에 따른 EFA 포트 수명 표시.
-
EFA keep-alive 패킷: 수신된 keep-alive 패킷 수를 추적합니다.
지표 목록
다음 표에는 오류, 완료된 명령, 네트워크 트래픽 및 리소스 사용률을 포함하여 EFA 작업의 다양한 측면에 대한 통찰력을 제공하는 지표 목록이 나와 있습니다.
지표 이름 | 설명 |
---|---|
node_amazonefa_info
|
/sys/class/infiniband/의 숫자가 아닌 데이터는 값이 항상 1입니다. |
node_amazonefa_lifespan
|
포트 수명 |
node_amazonefa_rdma_read_bytes
|
를 사용하여 읽은 바이트 수 RDMA |
node_amazonefa_rdma_read_resp_bytes
|
의 읽기 응답 바이트 수 RDMA |
node_amazonefa_rdma_read_wr_err
|
의 읽기 쓰기 오류 수 RDMA |
node_amazonefa_rdma_read_wrs
|
의 읽기 rs 수 RDMA |
node_amazonefa_rdma_write_bytes
|
로 작성된 바이트 수 RDMA |
node_amazonefa_rdma_write_recv_bytes
|
로 쓰고 받은 바이트 수 RDMA |
node_amazonefa_rdma_write_wr_err
|
오류와 함께 작성된 바이트 수 RDMA |
node_amazonefa_rdma_write_wrs
|
쓰기 wrs 바이트 수 RDMA |
node_amazonefa_recv_bytes
|
수신된 바이트 수 |
node_amazonefa_recv_wrs
|
수신된 바이트 wrs 수 |
node_amazonefa_rx_bytes
|
수신된 바이트 수 |
node_amazonefa_rx_drops
|
삭제된 패킷 수 |
node_amazonefa_rx_pkts
|
수신된 패킷 수 |
node_amazonefa_send_bytes
|
전송된 바이트 수 |
node_amazonefa_send_wrs
|
전송된 wrs 수 |
node_amazonefa_tx_bytes
|
전송된 바이트 수 |
node_amazonefa_tx_pkts
|
전송된 패킷 수 |
FSx Lustre 지표 대시보드용
Amazon for Lustre 파일 시스템에서 Amazon 에서 수집한 지표에 FSx 대한 시각화된 정보를 제공합니다 CloudWatch.
참고
Grafana FSx for Lustre 대시보드는 Amazon을 데이터 소스 CloudWatch 로 사용하며, 이는 Amazon Managed Service for Prometheus를 사용하도록 구성한 다른 대시보드와 다릅니다. FSx for Lustre 파일 시스템과 관련된 지표를 정확하게 모니터링하고 시각화하려면 FSx for Lustre 대시보드가 Amazon을 데이터 소스 CloudWatch 로 사용하도록 구성하여 FSx for Lustre 파일 시스템이 배포되는 AWS 리전 위치를 동일하게 지정합니다.
지표 유형
-
DataReadBytes: 파일 시스템 읽기 작업에 대한 바이트 수입니다.
-
DataWriteBytes: 파일 시스템 쓰기 작업에 대한 바이트 수입니다.
-
DataReadOperations: 읽기 작업 수입니다.
-
DataWriteOperations: 쓰기 작업 수입니다.
-
MetadataOperations: 메타 데이터 작업 수입니다.
-
FreeDataStorageCapacity: 사용 가능한 스토리지 용량입니다.