選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

匯出的指標參考

焦點模式
匯出的指標參考 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

下列各節會在 SageMaker HyperPod 可觀測性成功設定 AWS CloudFormation 堆疊後,提供從 SageMaker HyperPod 匯出至 Amazon Managed Service for Prometheus 的指標完整清單。您可以開始監控 Amazon Managed Grafana 儀表板中視覺化的這些指標。

Slurm Exporter 儀表板

提供 SageMaker HyperPod 上 Slurm 叢集的視覺化資訊。

指標類型

  • 叢集概觀:顯示節點、任務及其狀態的總數。

  • 任務指標:視覺化任務計數和狀態隨時間的變化。

  • 節點指標:顯示節點狀態、配置和可用資源。

  • 分割區指標:監控分割區特定的指標,例如 CPU、記憶體和 GPU 使用率。

  • 任務效率:根據使用的資源計算任務效率。

指標清單

指標名稱 描述
slurm_job_count Slurm 叢集中的任務總數
slurm_job_state_count 每個狀態中的任務計數 (例如,執行中、待定、已完成)
slurm_node_count Slurm 叢集中的節點總數
slurm_node_state_count 每個狀態的節點計數 (例如閒置、配置、混合)
slurm_partition_node_count 每個分割區中的節點計數
slurm_partition_job_count 每個分割區中的任務計數
slurm_partition_alloc_cpus 每個分割區中配置CPUs 總數
slurm_partition_free_cpus 每個分割區中可用 CPUs的總數
slurm_partition_alloc_memory 每個分割區中配置的記憶體總數
slurm_partition_free_memory 每個分割區中的可用記憶體總數
slurm_partition_alloc_gpus 每個分割區中配置的 GPUs 總數
slurm_partition_free_gpus 每個分割區中可用的 GPUs 總數

節點匯出器儀表板

提供 Prometheus 節點匯出器從 HyperPod 叢集節點收集的系統指標視覺化資訊。

指標類型

  • 系統概觀:顯示 CPU 負載平均值和記憶體用量。

  • 記憶體指標:視覺化記憶體使用率,包括總記憶體、可用記憶體和交換空間。

  • 磁碟用量:監控磁碟空間使用率和可用性。

  • 網路流量:顯示隨時間接收和傳輸的網路位元組。

  • 檔案系統指標:分析檔案系統用量和可用性。

  • 磁碟輸入/輸出指標:視覺化磁碟讀取和寫入活動。

指標清單

如需匯出指標的完整清單,請參閱 Node Exporter and procfs GitHub 儲存庫。下表顯示指標的子集,提供對 CPU 負載、記憶體用量、磁碟空間和網路活動等系統資源使用率的洞察。

指標名稱 描述
node_load1 1 分鐘負載平均值
node_load5 5 分鐘負載平均值
node_load15 15 分鐘負載平均值
node_memory_MemTotal 系統記憶體總數
node_memory_MemFree 可用系統記憶體
node_memory_MemAvailable 配置至程序的可用記憶體
node_memory_Buffers 核心用於緩衝的記憶體
node_memory_Cached 核心用於快取檔案系統資料的記憶體
node_memory_SwapTotal 可用的總交換空間
node_memory_SwapFree 免費交換空間
node_memory_SwapCached 曾經交換掉的記憶體會交換回去,但仍在交換中
node_filesystem_avail_bytes 可用磁碟空間,以位元組為單位
node_filesystem_size_bytes 以位元組為單位的總磁碟空間
node_filesystem_free_bytes 以位元組為單位的可用磁碟空間
node_network_receive_bytes 收到的網路位元組
node_network_transmit_bytes 傳輸的網路位元組
node_disk_read_bytes 磁碟位元組讀取
node_disk_written_bytes 寫入磁碟位元組

NVIDIA DCGM 匯出工具儀表板

提供 NVIDIA DCGM 匯出工具收集的 NVIDIA GPU 指標視覺化資訊。

指標類型

  • GPU 概觀:顯示 GPU 使用率、溫度、用電量和記憶體用量。

  • 溫度指標:將 GPU 溫度視覺化一段時間。

  • 用電量:監控 GPU 用電量和用電量趨勢。

  • 記憶體使用率:分析 GPU 記憶體使用率,包括已使用、可用和總記憶體。

  • 風扇速度:顯示 GPU 風扇速度和變化。

  • ECC 錯誤:追蹤 GPU 記憶體 ECC 錯誤和待處理錯誤。

指標清單

下表顯示提供 NVIDIA GPU 運作狀態和效能洞見的指標清單,包括時鐘頻率、溫度、用電量、記憶體使用率、風扇速度和錯誤指標。

指標名稱 描述
DCGM_FI_DEV_SM_CLOCK SM 時鐘頻率 (以 MHz 為單位)
DCGM_FI_DEV_MEM_CLOCK 記憶體時鐘頻率 (以 MHz 為單位)
DCGM_FI_DEV_MEMORY_TEMP 記憶體溫度 (以 C 為單位)
DCGM_FI_DEV_GPU_TEMP GPU 溫度 (以 C 為單位)
DCGM_FI_DEV_POWER_USAGE 功耗 (W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION 開機後的總能源消耗 (以 mJ 為單位)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER PCIe 重試的總數
DCGM_FI_DEV_MEM_COPY_UTIL 記憶體使用率 (%)
DCGM_FI_DEV_ENC_UTIL 編碼器使用率 (%)
DCGM_FI_DEV_DEC_UTIL 解碼器使用率 (%)
DCGM_FI_DEV_XID_ERRORS 遇到的最後一個 XID 錯誤值
DCGM_FI_DEV_FB_FREE 無影格緩衝記憶體 (MiB)
DCGM_FI_DEV_FB_USED 使用的影格緩衝記憶體 (MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL 所有通道的 NVLink 頻寬計數器總數
DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU 授權狀態
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS 無法修正錯誤的重新映射資料列數
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS 可修正錯誤的重新映射資料列數
DCGM_FI_DEV_ROW_REMAP_FAILURE 資料列重新映射是否失敗

EFA 指標儀表板

提供 EFA 節點匯出器收集之 P 執行個體上所配備之 Amazon Elastic Fabric Adapter (EFA) 指標的視覺化資訊。

指標類型

  • EFA 錯誤指標:視覺化配置錯誤、命令錯誤和記憶體映射錯誤等錯誤。

  • EFA 網路流量:監控接收和傳輸的位元組、封包和工作請求。

  • EFA RDMA 效能:分析 RDMA 讀取和寫入操作,包括傳輸的位元組和錯誤率。

  • EFA 連接埠生命週期:顯示一段時間內的 EFA 連接埠生命週期。

  • EFA 保持連線封包:追蹤收到的保持連線封包數量。

指標清單

下表顯示指標清單,提供 EFA 操作各個層面的洞見,包括錯誤、完成的命令、網路流量和資源使用率。

指標名稱 描述
node_amazonefa_info 來自 /sys/class/infiniband/ 的非數值資料,值一律為 1。
node_amazonefa_lifespan 連接埠的生命週期
node_amazonefa_rdma_read_bytes 使用 RDMA 讀取的位元組數
node_amazonefa_rdma_read_resp_bytes RDMA 的讀取回應位元組數
node_amazonefa_rdma_read_wr_err RDMA 的讀取寫入錯誤數目
node_amazonefa_rdma_read_wrs 具有 RDMA 的讀取器數目
node_amazonefa_rdma_write_bytes 使用 RDMA 寫入的位元組數
node_amazonefa_rdma_write_recv_bytes 使用 RDMA 寫入和接收的位元組數
node_amazonefa_rdma_write_wr_err 以錯誤 RDMA 寫入的位元組數
node_amazonefa_rdma_write_wrs 寫入的位元組數 wrs RDMA
node_amazonefa_recv_bytes 收到的位元組數
node_amazonefa_recv_wrs 收到的位元組數 wrs
node_amazonefa_rx_bytes 收到的位元組數
node_amazonefa_rx_drops 捨棄的封包數
node_amazonefa_rx_pkts 收到的封包數量
node_amazonefa_send_bytes 傳送的位元組數
node_amazonefa_send_wrs 傳送的 wrs 數目
node_amazonefa_tx_bytes 傳輸的位元組數
node_amazonefa_tx_pkts 傳輸的封包數量

FSx for Lustre 指標儀表板

提供 Amazon CloudWatch 從 Amazon FSx for Lustre 檔案系統收集的指標視覺化資訊。 Amazon CloudWatch

注意

Grafana FSx for Lustre 儀表板使用 Amazon CloudWatch 作為其資料來源,這與您設定為使用 Amazon Managed Service for Prometheus 的其他儀表板不同。為了確保 FSx for Lustre 檔案系統相關指標的準確監控和視覺化,請將 FSx for Lustre 儀表板設定為使用 Amazon CloudWatch 作為資料來源,指定部署 FSx for Lustre 檔案系統的相同 AWS 區域 位置。

指標類型

  • DataReadBytes:檔案系統讀取操作的位元組數。

  • DataWriteBytes:檔案系統寫入操作的位元組數。

  • DataReadOperations:讀取操作的數量。

  • DataWriteOperations:寫入操作的數量。

  • MetadataOperations:中繼資料操作的數量。

  • FreeDataStorageCapacity:可用儲存容量的數量。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。