本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
匯出的指標參考
下列各節提供在 AWS CloudFormation 堆疊成功組態以獲得可 SageMaker HyperPod 觀測性後,從 匯出 SageMaker HyperPod 到 Amazon Managed Service for Prometheus 的指標完整清單。您可以開始監控 Amazon Managed Grafana 儀表板中視覺化的這些指標。
Slurm Exporter 儀表板
在 上提供 Slurm 叢集的視覺化資訊 SageMaker HyperPod。
指標類型
-
叢集概觀:顯示節點、任務及其狀態的總數。
-
任務指標:隨著時間的推移視覺化任務計數和狀態。
-
節點指標:顯示節點狀態、配置和可用資源。
-
分割區指標:監控分割區特定的指標CPU,例如 、記憶體和GPU使用率。
-
工作效率:根據使用的資源計算工作效率。
指標清單
指標名稱 | 描述 |
---|---|
slurm_job_count |
Slurm 叢集中的任務總數 |
slurm_job_state_count |
每個狀態中的任務計數 (例如執行中、待定、已完成) |
slurm_node_count
|
Slurm 叢集中的節點總數 |
slurm_node_state_count
|
每個狀態的節點計數 (例如閒置、配置、混合) |
slurm_partition_node_count
|
每個分割區中的節點計數 |
slurm_partition_job_count
|
每個分割區中的任務計數 |
slurm_partition_alloc_cpus
|
每個分割區CPUs中配置的總數 |
slurm_partition_free_cpus
|
每個分割區CPUs中可用的總數 |
slurm_partition_alloc_memory
|
每個分割區中配置的記憶體總數 |
slurm_partition_free_memory
|
每個分割區中的可用記憶體總數 |
slurm_partition_alloc_gpus
|
每個分割區GPUs中配置的總數 |
slurm_partition_free_gpus
|
每個分割區GPUs中可用的總計 |
節點匯出器儀表板
提供 Prometheus 節點匯出器
指標類型
-
系統概觀:顯示CPU負載平均值和記憶體用量。
-
記憶體指標:視覺化記憶體使用率,包括總記憶體、可用記憶體和交換空間。
-
磁碟用量:監控磁碟空間使用率和可用性。
-
網路流量:顯示隨時間接收和傳輸的網路位元組。
-
檔案系統指標:分析檔案系統用量和可用性。
-
磁碟 I/O 指標:視覺化磁碟讀取和寫入活動。
指標清單
如需匯出指標的完整清單,請參閱 Node Exporter
指標名稱 | 描述 |
---|---|
node_load1
|
1 分鐘負載平均值 |
node_load5
|
5 分鐘負載平均值 |
node_load15
|
15 分鐘負載平均值 |
node_memory_MemTotal
|
系統記憶體總數 |
node_memory_MemFree
|
免費系統記憶體 |
node_memory_MemAvailable
|
配置至程序的可用記憶體 |
node_memory_Buffers
|
核心用於緩衝的記憶體 |
node_memory_Cached
|
核心用於快取檔案系統資料的記憶體 |
node_memory_SwapTotal
|
可用的總交換空間 |
node_memory_SwapFree
|
免費交換空間 |
node_memory_SwapCached
|
曾經交換掉的記憶體會交換回去,但仍在交換中 |
node_filesystem_avail_bytes
|
可用磁碟空間,以位元組為單位 |
node_filesystem_size_bytes
|
以位元組為單位的總磁碟空間 |
node_filesystem_free_bytes
|
以位元組為單位的可用磁碟空間 |
node_network_receive_bytes
|
收到網路位元組 |
node_network_transmit_bytes
|
網路位元組已傳輸 |
node_disk_read_bytes
|
磁碟位元組讀取 |
node_disk_written_bytes
|
寫入磁碟位元組 |
NVIDIA DCGM 出口商儀表板
提供NVIDIADCGM匯出者
指標類型
-
GPU 概觀:顯示GPU使用率、溫度、用電量和記憶體用量。
-
溫度指標:視覺化一段時間內的GPU溫度。
-
電力用量:監控GPU功耗和電力用量趨勢。
-
記憶體使用率:分析GPU記憶體使用率,包括已使用、可用和總記憶體。
-
風扇速度:顯示GPU風扇速度和變化。
-
ECC 錯誤:追蹤GPU記憶體ECC錯誤和待處理錯誤。
指標清單
下表顯示提供NVIDIAGPU運作狀態和效能洞察的指標清單,包括時鐘頻率、溫度、電力用量、記憶體使用率、風扇速度和錯誤指標。
指標名稱 | 描述 |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
SM 時鐘頻率 (在 中MHz) |
DCGM_FI_DEV_MEM_CLOCK
|
記憶體時鐘頻率 (在 中MHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
記憶體溫度 (以 C 為單位) |
DCGM_FI_DEV_GPU_TEMP
|
GPU 溫度 (以 C 為單位) |
DCGM_FI_DEV_POWER_USAGE
|
功耗 (W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
自開機以來的總能耗 (以 mJ 為單位) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
PCIe 重試總數 |
DCGM_FI_DEV_MEM_COPY_UTIL
|
記憶體使用率 (%) |
DCGM_FI_DEV_ENC_UTIL
|
編碼器使用率 (%) |
DCGM_FI_DEV_DEC_UTIL
|
解碼器使用率 (%) |
DCGM_FI_DEV_XID_ERRORS
|
遇到的最後一個XID錯誤值 |
DCGM_FI_DEV_FB_FREE
|
無影格緩衝記憶體 (以 MiB 為單位) |
DCGM_FI_DEV_FB_USED
|
使用的影格緩衝記憶體 (以 MiB 為單位) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
所有通道的NVLink頻寬計數器總數 |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
vGPU 授權狀態 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
無法修正錯誤的重新映射資料列數 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
可修正錯誤的重新映射資料列數 |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
資料列重新映射是否失敗 |
EFA 指標儀表板
提供節點EFA匯出器
指標類型
-
EFA 錯誤指標:視覺化配置錯誤、命令錯誤和記憶體映射錯誤等錯誤。
-
EFA 網路流量:監控接收和傳輸的位元組、封包和工作請求。
-
EFA RDMA 效能:分析RDMA讀取和寫入操作,包括傳輸的位元組和錯誤率。
-
EFA 連接埠生命週期:顯示一段時間內的EFA連接埠生命週期。
-
EFA keep-alive 封包:追蹤收到的 keep-alive 封包數量。
指標清單
下表顯示指標清單,這些指標可針對EFA操作的各個層面提供洞見,包括錯誤、完成的命令、網路流量和資源使用率。
指標名稱 | 描述 |
---|---|
node_amazonefa_info
|
來自 /sys/class/infiniband/ 的非數值資料,值一律為 1。 |
node_amazonefa_lifespan
|
連接埠的生命週期 |
node_amazonefa_rdma_read_bytes
|
使用 讀取的位元組數 RDMA |
node_amazonefa_rdma_read_resp_bytes
|
具有 的讀取回應位元組數目 RDMA |
node_amazonefa_rdma_read_wr_err
|
的讀取寫入錯誤數目 RDMA |
node_amazonefa_rdma_read_wrs
|
具有 的讀取 rs 數目 RDMA |
node_amazonefa_rdma_write_bytes
|
寫入的位元組數 RDMA |
node_amazonefa_rdma_write_recv_bytes
|
寫入和接收的位元組數 RDMA |
node_amazonefa_rdma_write_wr_err
|
寫入但發生錯誤的位元組數目 RDMA |
node_amazonefa_rdma_write_wrs
|
寫入的位元組數 RDMA |
node_amazonefa_recv_bytes
|
收到的位元組數 |
node_amazonefa_recv_wrs
|
收到的位元組數 |
node_amazonefa_rx_bytes
|
收到的位元組數 |
node_amazonefa_rx_drops
|
捨棄的封包數 |
node_amazonefa_rx_pkts
|
收到的封包數量 |
node_amazonefa_send_bytes
|
傳送的位元組數 |
node_amazonefa_send_wrs
|
已傳送的 wr 數目 |
node_amazonefa_tx_bytes
|
傳輸的位元組數 |
node_amazonefa_tx_pkts
|
傳輸的封包數量 |
FSx for Lustre 指標儀表板
提供 Amazon FSx for Lustre 檔案系統收集的指標視覺化資訊 CloudWatch。
注意
Grafana FSx for Lustre 儀表板使用 Amazon CloudWatch 作為其資料來源,這與您設定為使用 Amazon Managed Service for Prometheus 的其他儀表板不同。為確保正確監控和視覺化與 FSx for Lustre 檔案系統相關的指標,請將 FSx for Lustre 儀表板設定為使用 Amazon CloudWatch 作為資料來源,指定部署 FSx for Lustre 檔案系統的相同 AWS 區域 位置。
指標類型
-
DataReadBytes:檔案系統讀取操作的位元組數。
-
DataWriteBytes:檔案系統寫入操作的位元組數。
-
DataReadOperations:讀取操作的數量。
-
DataWriteOperations:寫入操作的數量。
-
MetadataOperations:中繼資料操作的數量。
-
FreeDataStorageCapacity:可用儲存容量的數量。