匯出的量度參考 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

匯出的量度參考

下列各節提供完整的指標清單,在成功設定後,Prometheus 適用於 Prometheus 的 Amazon 受管服務匯出的指標 SageMaker HyperPod AWS CloudFormation 堆棧的 SageMaker HyperPod 觀察性。您可以開始在 Amazon 受管的 Grafana 儀表板中以視覺化方式監控這些指標。

思盧姆出口商儀表板

提供 Slurm 集群上的可視化信息。 SageMaker HyperPod

指標類型

  • 叢集概觀:顯示節點、作業及其狀態的總數。

  • Job 指標:視覺化一段時間內的工作計數和狀態。

  • 節點測量結果:顯示節點狀態、配置和可用資源。

  • 分割區測量結果:監督分割區特定的測量結果CPU,例如記憶體和GPU使用率。

  • Job 效率:根據使用的資源計算工單效率。

指標清單

指標名稱 描述
slurm_job_count Slurm 叢集中的工作總數
slurm_job_state_count 每個狀態下的工作計數 (例如執行中、擱置中、已完成)
slurm_node_count Slurm 叢集中的節點總數
slurm_node_state_count 每個狀態中的節點計數(例如,空閒,配置,混合)
slurm_partition_node_count 每個分割區中的節點計數
slurm_partition_job_count 每個分割區中的工作計數
slurm_partition_alloc_cpus 每個分區CPUs中配置的總數
slurm_partition_free_cpus 每個分割區CPUs中可用的總數
slurm_partition_alloc_memory 每個分割區中的總配置記憶體
slurm_partition_free_memory 每個分割區中的總可用記憶體
slurm_partition_alloc_gpus 每個分區GPUs中的配置總數
slurm_partition_free_gpus 每個分割區GPUs中的可用總數

節點匯出器儀表

提供 Prometheus 節點匯出程式從叢集節點收集的系統指標的視覺化資訊。 HyperPod

指標類型

  • 系統概述:顯示平均CPU負載和內存使用情況。

  • 記憶體指標:視覺化記憶體使用率,包括總記憶體、可用記憶體和交換空間。

  • 磁碟使用率:監視磁碟空間使用率和可用性。

  • 網路流量:顯示一段時間內接收和傳輸的網路位元組。

  • 檔案系統度量:分析檔案系統使用狀況和可用性。

  • 磁碟 I/O 指標:視覺化磁碟讀取和寫入活動。

指標清單

如需匯出量度的完整清單,請參閱節點匯出程式和 procfs GitHub 存放庫。下表顯示測量結果子集,提供系統資源使用率 (例如CPU負載、記憶體使用率、磁碟空間和網路活動) 的深入解析。

指標名稱 描述
node_load1 平均負載 1 分鐘
node_load5 平均負載 5 分鐘
node_load15 平均負載 15 分鐘
node_memory_MemTotal 總系統記憶體
node_memory_MemFree 可用系統記憶體
node_memory_MemAvailable 分配給處理序的可用記憶體
node_memory_Buffers 內核用於緩衝的內存
node_memory_Cached 核心用於快取檔案系統資料的記憶體
node_memory_SwapTotal 總交換空間
node_memory_SwapFree 可用交換空間
node_memory_SwapCached 曾經被換掉的內存被交換回來,但仍然在交換
node_filesystem_avail_bytes 可用磁碟空間 (位元組)
node_filesystem_size_bytes 總磁碟空間 (位元組)
node_filesystem_free_bytes 可用磁碟空間 (位元組)
node_network_receive_bytes 接收網路位元組
node_network_transmit_bytes 網絡字節傳輸
node_disk_read_bytes 磁碟位元組讀取
node_disk_written_bytes 磁碟位元組寫入

NVIDIADCGM出口商儀表

提供NVIDIADCGM匯出程式所收集NVIDIAGPU指標的視覺化資訊。

指標類型

  • GPU概述:顯示使用GPU率、溫度、電源使用情況和記憶體使用情況。

  • 溫度指標:可視化一段時間內的GPU溫度。

  • 電源使用:監控GPU耗電量和電源使用趨勢。

  • 記憶體使用率:分析GPU記憶體使用量,包括已用、可用記憶體和總記憶體

  • 風扇速度:顯示GPU風扇速度和變化。

  • ECC錯誤:追蹤GPU記憶體ECC錯誤和擱置錯誤。

指標清單

下表顯示了提供NVIDIAGPU健康狀態和效能的深入見解的指標清單,包括時脈頻率、溫度、電源使用量、記憶體使用率、風扇速度和錯誤指標。

指標名稱 描述
DCGM_FI_DEV_SM_CLOCK SM 時鐘頻率(英寸MHz)
DCGM_FI_DEV_MEM_CLOCK 記憶體時脈頻率 (inMHz)
DCGM_FI_DEV_MEMORY_TEMP 記憶體溫度 (C)
DCGM_FI_DEV_GPU_TEMP GPU溫度 (單位為 C)
DCGM_FI_DEV_POWER_USAGE 功率消耗(W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION 開機後的總能源消耗量 (以 mJ 為單位)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER PCIe重試總次數
DCGM_FI_DEV_MEM_COPY_UTIL 記憶體使用率 (%)
DCGM_FI_DEV_ENC_UTIL 編碼器使用率 (%)
DCGM_FI_DEV_DEC_UTIL 解碼器利用率 (%)
DCGM_FI_DEV_XID_ERRORS 上次遇到的XID錯誤值
DCGM_FI_DEV_FB_FREE 可用的訊框緩衝記憶體 (單位為 MiB)
DCGM_FI_DEV_FB_USED 使用的訊框緩衝記憶體 (單位為 MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL 所有通道的NVLink頻寬計數器總數
DCGM_FI_DEV_VGPU_LICENSE_STATUS v GPU 授權狀態
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS 無法修正錯誤的重新對應資料列數
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS 可修正錯誤的重新對應資料列數
DCGM_FI_DEV_ROW_REMAP_FAILURE 無論是行的重新映射失敗

EFA指標儀表板

提供EFA節點匯出程式收集到的 P 執行個體上配備的 Amazon 彈性網狀架構適配器 (EFA) 指標的視覺化資訊。

指標類型

  • EFA錯誤指標:視覺化錯誤,例如配置錯誤、命令錯誤和記憶體對應錯誤。

  • EFA網路流量:監控已接收和傳輸的位元組、封包和工作要求。

  • EFARDMA效能:分析RDMA讀取和寫入作業,包括傳輸的位元組和錯誤率。

  • EFAEFA端口壽命:顯示端口隨時間的使用壽命。

  • EFA保持活動數據包:跟踪接收的保持活動數據包的數量。

指標清單

下表顯示測量結果清單,提供各種EFA作業層面的見解,包括錯誤、已完成的命令、網路流量和資源使用率。

指標名稱 描述
node_amazonefa_info 來自/系統/類/無限值/的非數字數據,值始終為 1。
node_amazonefa_lifespan 港口的使用壽命
node_amazonefa_rdma_read_bytes 讀取的位元組數 RDMA
node_amazonefa_rdma_read_resp_bytes 讀取回應位元組數 RDMA
node_amazonefa_rdma_read_wr_err 具有的讀寫錯誤數 RDMA
node_amazonefa_rdma_read_wrs 具有讀取 rs 的數量 RDMA
node_amazonefa_rdma_write_bytes 寫入的位元組數 RDMA
node_amazonefa_rdma_write_recv_bytes 寫入和接收的位元組數 RDMA
node_amazonefa_rdma_write_wr_err 寫入錯誤的位元組數 RDMA
node_amazonefa_rdma_write_wrs 寫入 wrs 的位元組數 RDMA
node_amazonefa_recv_bytes 接收到的位元組數
node_amazonefa_recv_wrs 接收到 wrs 的位元組數
node_amazonefa_rx_bytes 接收到的位元組數
node_amazonefa_rx_drops 丟棄的封包數
node_amazonefa_rx_pkts 接收到的封包數
node_amazonefa_send_bytes 傳送的位元組數
node_amazonefa_send_wrs 傳送的文件數目
node_amazonefa_tx_bytes 傳輸的位元組數
node_amazonefa_tx_pkts 傳輸的封包數

FSx對於光澤度量儀表板

提供 Amazon 從 Amazon FSx 為 Lustre 文件系統收集的指標的可視化信息。 CloudWatch

注意

Grafana FSx 的 Lustre 儀表板利用 Amazon CloudWatch 作為其資料來源,與您設定為使用 Prometheus Amazon 託管服務的其他儀表板不同。為了確保準確地監控和視覺化與 Lustre 檔案系統相關的FSx指標,請將用FSx於 Lustre 儀表板設定為使用 Amazon CloudWatch 作為資料來源,並指定相同的資料來源 AWS 區域 您FSx的 Lustre 文件系統的部署位置。

指標類型

  • DataReadBytes:檔案系統讀取作業的位元組數。

  • DataWriteBytes:檔案系統寫入作業的位元組數。

  • DataReadOperations:讀取作業的數目。

  • DataWriteOperations:寫入作業的數目。

  • MetadataOperations: 中繼資料作業的數目。

  • FreeDataStorageCapacity:可用儲存容量的數量。