本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
匯出的量度參考
下列各節提供完整的指標清單,在成功設定後,Prometheus 適用於 Prometheus 的 Amazon 受管服務匯出的指標 SageMaker HyperPod AWS CloudFormation 堆棧的 SageMaker HyperPod 觀察性。您可以開始在 Amazon 受管的 Grafana 儀表板中以視覺化方式監控這些指標。
思盧姆出口商儀表板
提供 Slurm 集群上的可視化信息。 SageMaker HyperPod
指標類型
-
叢集概觀:顯示節點、作業及其狀態的總數。
-
Job 指標:視覺化一段時間內的工作計數和狀態。
-
節點測量結果:顯示節點狀態、配置和可用資源。
-
分割區測量結果:監督分割區特定的測量結果CPU,例如記憶體和GPU使用率。
-
Job 效率:根據使用的資源計算工單效率。
指標清單
指標名稱 | 描述 |
---|---|
slurm_job_count |
Slurm 叢集中的工作總數 |
slurm_job_state_count |
每個狀態下的工作計數 (例如執行中、擱置中、已完成) |
slurm_node_count
|
Slurm 叢集中的節點總數 |
slurm_node_state_count
|
每個狀態中的節點計數(例如,空閒,配置,混合) |
slurm_partition_node_count
|
每個分割區中的節點計數 |
slurm_partition_job_count
|
每個分割區中的工作計數 |
slurm_partition_alloc_cpus
|
每個分區CPUs中配置的總數 |
slurm_partition_free_cpus
|
每個分割區CPUs中可用的總數 |
slurm_partition_alloc_memory
|
每個分割區中的總配置記憶體 |
slurm_partition_free_memory
|
每個分割區中的總可用記憶體 |
slurm_partition_alloc_gpus
|
每個分區GPUs中的配置總數 |
slurm_partition_free_gpus
|
每個分割區GPUs中的可用總數 |
節點匯出器儀表
提供 Prometheus 節點匯出程式從叢集節點
指標類型
-
系統概述:顯示平均CPU負載和內存使用情況。
-
記憶體指標:視覺化記憶體使用率,包括總記憶體、可用記憶體和交換空間。
-
磁碟使用率:監視磁碟空間使用率和可用性。
-
網路流量:顯示一段時間內接收和傳輸的網路位元組。
-
檔案系統度量:分析檔案系統使用狀況和可用性。
-
磁碟 I/O 指標:視覺化磁碟讀取和寫入活動。
指標清單
如需匯出量度的完整清單,請參閱節點
指標名稱 | 描述 |
---|---|
node_load1
|
平均負載 1 分鐘 |
node_load5
|
平均負載 5 分鐘 |
node_load15
|
平均負載 15 分鐘 |
node_memory_MemTotal
|
總系統記憶體 |
node_memory_MemFree
|
可用系統記憶體 |
node_memory_MemAvailable
|
分配給處理序的可用記憶體 |
node_memory_Buffers
|
內核用於緩衝的內存 |
node_memory_Cached
|
核心用於快取檔案系統資料的記憶體 |
node_memory_SwapTotal
|
總交換空間 |
node_memory_SwapFree
|
可用交換空間 |
node_memory_SwapCached
|
曾經被換掉的內存被交換回來,但仍然在交換 |
node_filesystem_avail_bytes
|
可用磁碟空間 (位元組) |
node_filesystem_size_bytes
|
總磁碟空間 (位元組) |
node_filesystem_free_bytes
|
可用磁碟空間 (位元組) |
node_network_receive_bytes
|
接收網路位元組 |
node_network_transmit_bytes
|
網絡字節傳輸 |
node_disk_read_bytes
|
磁碟位元組讀取 |
node_disk_written_bytes
|
磁碟位元組寫入 |
NVIDIADCGM出口商儀表
提供NVIDIADCGM匯出程
指標類型
-
GPU概述:顯示使用GPU率、溫度、電源使用情況和記憶體使用情況。
-
溫度指標:可視化一段時間內的GPU溫度。
-
電源使用:監控GPU耗電量和電源使用趨勢。
-
記憶體使用率:分析GPU記憶體使用量,包括已用、可用記憶體和總記憶體
-
風扇速度:顯示GPU風扇速度和變化。
-
ECC錯誤:追蹤GPU記憶體ECC錯誤和擱置錯誤。
指標清單
下表顯示了提供NVIDIAGPU健康狀態和效能的深入見解的指標清單,包括時脈頻率、溫度、電源使用量、記憶體使用率、風扇速度和錯誤指標。
指標名稱 | 描述 |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
SM 時鐘頻率(英寸MHz) |
DCGM_FI_DEV_MEM_CLOCK
|
記憶體時脈頻率 (inMHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
記憶體溫度 (C) |
DCGM_FI_DEV_GPU_TEMP
|
GPU溫度 (單位為 C) |
DCGM_FI_DEV_POWER_USAGE
|
功率消耗(W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
開機後的總能源消耗量 (以 mJ 為單位) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
PCIe重試總次數 |
DCGM_FI_DEV_MEM_COPY_UTIL
|
記憶體使用率 (%) |
DCGM_FI_DEV_ENC_UTIL
|
編碼器使用率 (%) |
DCGM_FI_DEV_DEC_UTIL
|
解碼器利用率 (%) |
DCGM_FI_DEV_XID_ERRORS
|
上次遇到的XID錯誤值 |
DCGM_FI_DEV_FB_FREE
|
可用的訊框緩衝記憶體 (單位為 MiB) |
DCGM_FI_DEV_FB_USED
|
使用的訊框緩衝記憶體 (單位為 MiB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
所有通道的NVLink頻寬計數器總數 |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
v GPU 授權狀態 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
無法修正錯誤的重新對應資料列數 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
可修正錯誤的重新對應資料列數 |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
無論是行的重新映射失敗 |
EFA指標儀表板
提供EFA節點匯出
指標類型
-
EFA錯誤指標:視覺化錯誤,例如配置錯誤、命令錯誤和記憶體對應錯誤。
-
EFA網路流量:監控已接收和傳輸的位元組、封包和工作要求。
-
EFARDMA效能:分析RDMA讀取和寫入作業,包括傳輸的位元組和錯誤率。
-
EFAEFA端口壽命:顯示端口隨時間的使用壽命。
-
EFA保持活動數據包:跟踪接收的保持活動數據包的數量。
指標清單
下表顯示測量結果清單,提供各種EFA作業層面的見解,包括錯誤、已完成的命令、網路流量和資源使用率。
指標名稱 | 描述 |
---|---|
node_amazonefa_info
|
來自/系統/類/無限值/的非數字數據,值始終為 1。 |
node_amazonefa_lifespan
|
港口的使用壽命 |
node_amazonefa_rdma_read_bytes
|
讀取的位元組數 RDMA |
node_amazonefa_rdma_read_resp_bytes
|
讀取回應位元組數 RDMA |
node_amazonefa_rdma_read_wr_err
|
具有的讀寫錯誤數 RDMA |
node_amazonefa_rdma_read_wrs
|
具有讀取 rs 的數量 RDMA |
node_amazonefa_rdma_write_bytes
|
寫入的位元組數 RDMA |
node_amazonefa_rdma_write_recv_bytes
|
寫入和接收的位元組數 RDMA |
node_amazonefa_rdma_write_wr_err
|
寫入錯誤的位元組數 RDMA |
node_amazonefa_rdma_write_wrs
|
寫入 wrs 的位元組數 RDMA |
node_amazonefa_recv_bytes
|
接收到的位元組數 |
node_amazonefa_recv_wrs
|
接收到 wrs 的位元組數 |
node_amazonefa_rx_bytes
|
接收到的位元組數 |
node_amazonefa_rx_drops
|
丟棄的封包數 |
node_amazonefa_rx_pkts
|
接收到的封包數 |
node_amazonefa_send_bytes
|
傳送的位元組數 |
node_amazonefa_send_wrs
|
傳送的文件數目 |
node_amazonefa_tx_bytes
|
傳輸的位元組數 |
node_amazonefa_tx_pkts
|
傳輸的封包數 |
FSx對於光澤度量儀表板
提供 Amazon 從 Amazon FSx 為 Lustre 文件系統收集的指標的可視化信息。 CloudWatch
注意
Grafana FSx 的 Lustre 儀表板利用 Amazon CloudWatch 作為其資料來源,與您設定為使用 Prometheus Amazon 託管服務的其他儀表板不同。為了確保準確地監控和視覺化與 Lustre 檔案系統相關的FSx指標,請將用FSx於 Lustre 儀表板設定為使用 Amazon CloudWatch 作為資料來源,並指定相同的資料來源 AWS 區域 您FSx的 Lustre 文件系統的部署位置。
指標類型
-
DataReadBytes:檔案系統讀取作業的位元組數。
-
DataWriteBytes:檔案系統寫入作業的位元組數。
-
DataReadOperations:讀取作業的數目。
-
DataWriteOperations:寫入作業的數目。
-
MetadataOperations: 中繼資料作業的數目。
-
FreeDataStorageCapacity:可用儲存容量的數量。