本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
导出的指标参考
以下各节列出了成功配置堆栈 SageMaker HyperPod 以实现可观察性后从亚马逊托管服务 Prometheus 导出的指标的完整列表。 AWS CloudFormation SageMaker HyperPod 您可以开始监控这些在 Amazon Managed Grafana 控制面板中可视化的指标。
Slurm 导出器仪表板
提供 Slurm 集群的可视化信息。 SageMaker HyperPod
指标的类型
-
集群概述:显示节点、任务及其状态的总数。
-
Job 指标:可视化一段时间内的作业数量和状态。
-
节点指标:显示节点状态、分配和可用资源。
-
分区指标:监控特定于分区的指标CPU,例如内存和GPU利用率。
-
工作效率:根据资源利用率计算工作效率。
指标清单
指标名称 | 描述 |
---|---|
slurm_job_count |
Slurm 集群中的任务总数 |
slurm_job_state_count |
每种状态(例如,正在运行、待处理、已完成)的任务计数 |
slurm_node_count
|
Slurm 集群中的节点总数 |
slurm_node_state_count
|
每种状态下的节点数量(例如,空闲、分配、混合) |
slurm_partition_node_count
|
每个分区中的节点数 |
slurm_partition_job_count
|
每个分区中的任务数 |
slurm_partition_alloc_cpus
|
每个分区CPUs中分配的总数 |
slurm_partition_free_cpus
|
每个分区CPUs中可用的总数 |
slurm_partition_alloc_memory
|
每个分区中分配的内存总量 |
slurm_partition_free_memory
|
每个分区中的可用内存总量 |
slurm_partition_alloc_gpus
|
每个分区GPUs中分配的总数 |
slurm_partition_free_gpus
|
每个分区GPUs中的可用总数 |
节点导出器仪表板
提供 Prometheus
指标的类型
-
系统概述:显示平均CPU负载和内存使用情况。
-
内存指标:可视化内存利用率,包括总内存、可用内存和交换空间。
-
磁盘使用情况:监控磁盘空间利用率和可用性。
-
网络流量:显示一段时间内接收和传输的网络字节数。
-
文件系统指标:分析文件系统的使用率和可用性。
-
磁盘 I/O 指标:可视化磁盘读取和写入活动。
指标清单
有关导出的指标的完整列表,请参阅 Node 导出器
指标名称 | 描述 |
---|---|
node_load1
|
1 分钟平均负载 |
node_load5
|
5 分钟平均负载 |
node_load15
|
平均负载 15 分钟 |
node_memory_MemTotal
|
系统总内存 |
node_memory_MemFree
|
可用系统内存 |
node_memory_MemAvailable
|
用于分配给进程的可用内存 |
node_memory_Buffers
|
内核用于缓冲的内存 |
node_memory_Cached
|
内核用于缓存文件系统数据的内存 |
node_memory_SwapTotal
|
可用交换空间总量 |
node_memory_SwapFree
|
免费交换空间 |
node_memory_SwapCached
|
曾经换出的内存已换回但仍处于交换状态 |
node_filesystem_avail_bytes
|
可用磁盘空间(以字节为单位) |
node_filesystem_size_bytes
|
磁盘总空间(以字节为单位) |
node_filesystem_free_bytes
|
可用磁盘空间(以字节为单位) |
node_network_receive_bytes
|
收到的网络字节数 |
node_network_transmit_bytes
|
传输的网络字节数 |
node_disk_read_bytes
|
读取的磁盘字节数 |
node_disk_written_bytes
|
写入的磁盘字节数 |
NVIDIADCGM出口商控制面板
提供NVIDIADCGM导
指标的类型
-
GPU概览:显示GPU利用率、温度、功耗和内存使用情况。
-
温度指标:可视化一段时间内的GPU温度。
-
电力使用情况:监控GPU功耗和用电趋势。
-
内存利用率:分析GPU内存使用情况,包括已用内存、可用内存和总内存。
-
风扇速度:显示GPU风扇速度和变化。
-
ECC错误:跟踪GPU内存ECC错误和待处理错误。
指标清单
下表列出了可深入了解NVIDIAGPU运行状况和性能的指标,包括时钟频率、温度、功耗、内存利用率、风扇速度和错误指标。
指标名称 | 描述 |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
SM 时钟频率 (inMHz) |
DCGM_FI_DEV_MEM_CLOCK
|
内存时钟频率 (inMHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
内存温度(以摄氏度为单位) |
DCGM_FI_DEV_GPU_TEMP
|
GPU温度(以摄氏度为单位) |
DCGM_FI_DEV_POWER_USAGE
|
功耗(以 W 为单位) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
自启动以来的总能耗(以 mJ 为单位) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
PCIe重试总次数 |
DCGM_FI_DEV_MEM_COPY_UTIL
|
内存利用率(以% 为单位) |
DCGM_FI_DEV_ENC_UTIL
|
编码器利用率(百分比) |
DCGM_FI_DEV_DEC_UTIL
|
解码器利用率(百分比) |
DCGM_FI_DEV_XID_ERRORS
|
上次遇到的XID错误的值 |
DCGM_FI_DEV_FB_FREE
|
帧缓冲器可用内存(以 MiB 为单位) |
DCGM_FI_DEV_FB_USED
|
使用的帧缓冲内存(以 MiB 为单位) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
所有通道的NVLink带宽计数器总数 |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
v GPU 许可证状态 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
因无法更正的错误而重新映射的行数 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
可更正错误的重映射行数 |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
行的重映射是否失败 |
EFA指标控制面板
提供EFA节点导
指标的类型
-
EFA错误指标:可视化错误,例如分配错误、命令错误和内存映射错误。
-
EFA网络流量:监控已接收和传输的字节、数据包和工作请求。
-
EFARDMA性能:分析RDMA读取和写入操作,包括传输的字节数和错误率。
-
EFA端口寿命:显示一段时间内EFA端口的使用寿命。
-
EFAkeep-alive 数据包:跟踪收到的保持活动数据包的数量。
指标清单
下表列出了一些指标,这些指标可以深入了解EFA操作的各个方面,包括错误、已完成的命令、网络流量和资源利用率。
指标名称 | 描述 |
---|---|
node_amazonefa_info
|
来自 /sys/class/infiniband/ 的非数字数据,值始终为 1。 |
node_amazonefa_lifespan
|
港口的使用寿命 |
node_amazonefa_rdma_read_bytes
|
读取的字节数 RDMA |
node_amazonefa_rdma_read_resp_bytes
|
读取的响应字节数 RDMA |
node_amazonefa_rdma_read_wr_err
|
读写错误数 RDMA |
node_amazonefa_rdma_read_wrs
|
读取 rs 的次数 RDMA |
node_amazonefa_rdma_write_bytes
|
用写入的字节数 RDMA |
node_amazonefa_rdma_write_recv_bytes
|
使用写入和接收的字节数 RDMA |
node_amazonefa_rdma_write_wr_err
|
写入错误的字节数 RDMA |
node_amazonefa_rdma_write_wrs
|
wrs 写入的字节数 RDMA |
node_amazonefa_recv_bytes
|
接收的字节数 |
node_amazonefa_recv_wrs
|
收到的字节数 wrs |
node_amazonefa_rx_bytes
|
接收的字节数 |
node_amazonefa_rx_drops
|
丢弃的数据包数 |
node_amazonefa_rx_pkts
|
收到的数据包数量 |
node_amazonefa_send_bytes
|
发送的字节数 |
node_amazonefa_send_wrs
|
发送的战争次数 |
node_amazonefa_tx_bytes
|
传输的字节数 |
node_amazonefa_tx_pkts
|
传输的数据包数量 |
FSx适用于 Lustre 指标控制面板
提供亚马逊从 Amazon for Lustre 文件系统收集FSx的指标的可视化信息。 CloudWatch
注意
Grafana FSx for Lustre 控制面板使用 CloudWatch 亚马逊作为其数据源,这与您配置为使用适用于 Prometheus 的亚马逊托管服务的其他控制面板不同。为确保准确监控和可视化与 for Lustre 文件系统相关的指标,请将 for Lustre 控制面板配置FSx为使用 Amazon CloudWatch 作为数据源,指定与 for Lustre 文件系统的部署 AWS 区域 位置相同。FSx FSx
指标的类型
-
DataReadBytes:文件系统读取操作的字节数。
-
DataWriteBytes:文件系统写入操作的字节数。
-
DataReadOperations:读取操作的数量。
-
DataWriteOperations:写入操作的数量。
-
MetadataOperations:元数据操作的数量。
-
FreeDataStorageCapacity:可用存储容量。