내보낸 지표 참조 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

내보낸 지표 참조

다음 섹션에서는 SageMaker HyperPod 관찰 가능성을 SageMaker HyperPod 위해 AWS CloudFormation 스택을 성공적으로 구성할 때 에서 Amazon Managed Service for Prometheus로 내보낸 지표의 포괄적인 목록을 제공합니다. Amazon Managed Grafana 대시보드에서 시각화된 이러한 지표 모니터링을 시작할 수 있습니다.

Slurm 내보내기 대시보드

에서 Slurm 클러스터의 시각화된 정보를 제공합니다 SageMaker HyperPod.

지표 유형

  • 클러스터 개요: 노드, 작업 및 해당 상태의 총 수를 표시합니다.

  • 작업 지표: 시간 경과에 따른 작업 수 및 상태 시각화.

  • 노드 지표: 노드 상태, 할당 및 사용 가능한 리소스를 표시합니다.

  • 파티션 지표: CPU, 메모리 및 GPU 사용률과 같은 파티션별 지표를 모니터링합니다.

  • 작업 효율성: 사용된 리소스를 기반으로 작업 효율성을 계산합니다.

지표 목록

지표 이름 설명
slurm_job_count Slurm 클러스터의 총 작업 수
slurm_job_state_count 각 상태의 작업 수(예: 실행 중, 보류 중, 완료됨)
slurm_node_count Slurm 클러스터의 총 노드 수
slurm_node_state_count 각 상태의 노드 수(예: 유휴, 할당, 혼합)
slurm_partition_node_count 각 파티션의 노드 수
slurm_partition_job_count 각 파티션의 작업 수
slurm_partition_alloc_cpus 각 파티션CPUs에 할당된 총 수
slurm_partition_free_cpus 각 파티션CPUs에서 사용 가능한 총 수
slurm_partition_alloc_memory 각 파티션에 할당된 총 메모리
slurm_partition_free_memory 각 파티션에서 사용 가능한 총 메모리
slurm_partition_alloc_gpus 각 파티션GPUs에 할당된 총계
slurm_partition_free_gpus 각 파티션GPUs에서 사용 가능한 합계

노드 내보내기 대시보드

HyperPod 클러스터 노드에서 Prometheus 노드 내보내기가 수집한 시스템 지표의 시각화된 정보를 제공합니다.

지표 유형

  • 시스템 개요: CPU 로드 평균 및 메모리 사용량 표시.

  • 메모리 지표: 총 메모리, 여유 메모리 및 스왑 공간을 포함한 메모리 사용률 시각화.

  • 디스크 사용량: 디스크 공간 사용률 및 가용성을 모니터링합니다.

  • 네트워크 트래픽: 시간 경과에 따라 수신 및 전송되는 네트워크 바이트를 표시합니다.

  • 파일 시스템 지표: 파일 시스템 사용량 및 가용성 분석.

  • 디스크 I/O 지표: 디스크 읽기 및 쓰기 활동을 시각화합니다.

지표 목록

내보낸 지표의 전체 목록은 노드 내보내기 Procfs GitHub 리포지토리를 참조하세요. 다음 표에는 CPU 로드, 메모리 사용량, 디스크 공간 및 네트워크 활동과 같은 시스템 리소스 사용률에 대한 통찰력을 제공하는 지표의 하위 집합이 나와 있습니다.

지표 이름 설명
node_load1 1분 로드 평균
node_load5 5분 로드 평균
node_load15 15분 로드 평균
node_memory_MemTotal 총 시스템 메모리
node_memory_MemFree 무료 시스템 메모리
node_memory_MemAvailable 프로세스에 할당할 수 있는 메모리
node_memory_Buffers 커널에서 버퍼링에 사용하는 메모리
node_memory_Cached 커널에서 파일 시스템 데이터를 캐싱하는 데 사용되는 메모리
node_memory_SwapTotal 사용 가능한 총 스왑 공간
node_memory_SwapFree 자유 스왑 공간
node_memory_SwapCached 한 번 교체된 메모리는 다시 교체되었지만 여전히 교체 중입니다.
node_filesystem_avail_bytes 사용 가능한 디스크 공간 바이트
node_filesystem_size_bytes 바이트 단위의 총 디스크 공간
node_filesystem_free_bytes 바이트 단위의 여유 디스크 공간
node_network_receive_bytes 수신된 네트워크 바이트
node_network_transmit_bytes 전송된 네트워크 바이트
node_disk_read_bytes 디스크 바이트 읽기
node_disk_written_bytes 기록된 디스크 바이트

NVIDIA DCGM 내보내기 대시보드

NVIDIA DCGM 내보내기 에서 수집한 NVIDIA GPU 지표의 시각화된 정보를 제공합니다.

지표 유형

  • GPU 개요: GPU 사용률, 온도, 전력 사용량 및 메모리 사용량 표시.

  • 온도 지표: 시간 경과에 따른 온도 시각화. GPU

  • 전력 사용량: GPU 전력 소비 및 전력 사용량 추세 모니터링.

  • 메모리 사용률: 사용된 GPU 메모리, 사용 가능한 메모리 및 총 메모리를 포함한 메모리 사용량 분석.

  • 팬 속도: GPU 팬 속도 및 변형 표시.

  • ECC 오류: GPU 메모리 ECC 오류 및 보류 중인 오류 추적.

지표 목록

다음 표에는 클록 주파수, 온도, 전력 사용량, 메모리 사용률, 팬 속도 및 오류 지표를 포함하여 NVIDIA GPU 상태와 성능에 대한 통찰력을 제공하는 지표 목록이 나와 있습니다.

지표 이름 설명
DCGM_FI_DEV_SM_CLOCK SM 클럭 빈도(MHz)
DCGM_FI_DEV_MEM_CLOCK 메모리 클럭 빈도(MHz)
DCGM_FI_DEV_MEMORY_TEMP 메모리 온도(C)
DCGM_FI_DEV_GPU_TEMP GPU 온도(C)
DCGM_FI_DEV_POWER_USAGE 전력 소비(W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION 부팅 이후 총 에너지 소비(mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER 총 PCIe 재시도 횟수
DCGM_FI_DEV_MEM_COPY_UTIL 메모리 사용률(%)
DCGM_FI_DEV_ENC_UTIL 인코더 사용률(%)
DCGM_FI_DEV_DEC_UTIL 디코더 사용률(%)
DCGM_FI_DEV_XID_ERRORS 발생한 마지막 XID 오류의 값
DCGM_FI_DEV_FB_FREE 프레임 버퍼 메모리 없음(MiB)
DCGM_FI_DEV_FB_USED 사용된 프레임 버퍼 메모리(MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL 모든 레인의 총 NVLink 대역폭 카운터 수
DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU 라이선스 상태
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS 수정할 수 없는 오류에 대해 다시 매핑된 행 수
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS 수정 가능한 오류에 대해 다시 매핑된 행 수
DCGM_FI_DEV_ROW_REMAP_FAILURE 행 재매핑 실패 여부

EFA 지표 대시보드

EFA 노드 내보내기 에서 수집한 P 인스턴스에 장착된 Amazon Elastic Fabric Adapter(EFA)의 지표에 대한 시각화된 정보를 제공합니다.

지표 유형

  • EFA 오류 지표: 할당 오류, 명령 오류 및 메모리 맵 오류와 같은 오류를 시각화합니다.

  • EFA 네트워크 트래픽: 수신 및 전송된 바이트, 패킷 및 작업 요청을 모니터링합니다.

  • EFA RDMA 성능: 전송된 바이트 및 오류율을 포함한 RDMA 읽기 및 쓰기 작업 분석.

  • EFA 포트 수명: 시간 경과에 따른 EFA 포트 수명 표시.

  • EFA keep-alive 패킷: 수신된 keep-alive 패킷 수를 추적합니다.

지표 목록

다음 표에는 오류, 완료된 명령, 네트워크 트래픽 및 리소스 사용률을 포함하여 EFA 작업의 다양한 측면에 대한 통찰력을 제공하는 지표 목록이 나와 있습니다.

지표 이름 설명
node_amazonefa_info /sys/class/infiniband/의 숫자가 아닌 데이터는 값이 항상 1입니다.
node_amazonefa_lifespan 포트 수명
node_amazonefa_rdma_read_bytes 를 사용하여 읽은 바이트 수 RDMA
node_amazonefa_rdma_read_resp_bytes 의 읽기 응답 바이트 수 RDMA
node_amazonefa_rdma_read_wr_err 의 읽기 쓰기 오류 수 RDMA
node_amazonefa_rdma_read_wrs 의 읽기 rs 수 RDMA
node_amazonefa_rdma_write_bytes 로 작성된 바이트 수 RDMA
node_amazonefa_rdma_write_recv_bytes 로 쓰고 받은 바이트 수 RDMA
node_amazonefa_rdma_write_wr_err 오류와 함께 작성된 바이트 수 RDMA
node_amazonefa_rdma_write_wrs 쓰기 wrs 바이트 수 RDMA
node_amazonefa_recv_bytes 수신된 바이트 수
node_amazonefa_recv_wrs 수신된 바이트 wrs 수
node_amazonefa_rx_bytes 수신된 바이트 수
node_amazonefa_rx_drops 삭제된 패킷 수
node_amazonefa_rx_pkts 수신된 패킷 수
node_amazonefa_send_bytes 전송된 바이트 수
node_amazonefa_send_wrs 전송된 wrs 수
node_amazonefa_tx_bytes 전송된 바이트 수
node_amazonefa_tx_pkts 전송된 패킷 수

FSx Lustre 지표 대시보드용

Amazon for Lustre 파일 시스템에서 Amazon 에서 수집한 지표에 FSx 대한 시각화된 정보를 제공합니다 CloudWatch.

참고

Grafana FSx for Lustre 대시보드는 Amazon을 데이터 소스 CloudWatch 로 사용하며, 이는 Amazon Managed Service for Prometheus를 사용하도록 구성한 다른 대시보드와 다릅니다. FSx for Lustre 파일 시스템과 관련된 지표를 정확하게 모니터링하고 시각화하려면 FSx for Lustre 대시보드가 Amazon을 데이터 소스 CloudWatch 로 사용하도록 구성하여 FSx for Lustre 파일 시스템이 배포되는 AWS 리전 위치를 동일하게 지정합니다.

지표 유형

  • DataReadBytes: 파일 시스템 읽기 작업에 대한 바이트 수입니다.

  • DataWriteBytes: 파일 시스템 쓰기 작업에 대한 바이트 수입니다.

  • DataReadOperations: 읽기 작업 수입니다.

  • DataWriteOperations: 쓰기 작업 수입니다.

  • MetadataOperations: 메타 데이터 작업 수입니다.

  • FreeDataStorageCapacity: 사용 가능한 스토리지 용량입니다.