

# 收集 NVIDIA GPU 指标
<a name="CloudWatch-Agent-NVIDIA-GPU"></a>

 您可以使用 CloudWatch 代理从 Linux 服务器收集 NVIDIA GPU 指标。要对此进行设置，请在 CloudWatch 代理配置文件的 `metrics_collected` 部分中添加 `nvidia_gpu` 部分。有关更多信息，请参阅 [Linux 部分](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section)。

此外，该实例必须已经安装 NVIDIA 驱动程序。某些亚马逊机器映像（AMI）上已经预装 NVIDIA 驱动程序。如果没有安装，您可以手动安装该驱动程序。有关更多信息，请参见[在 Linux 实例上安装 NVIDIA 驱动程序](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html)。

可以收集以下指标。所有这些指标都在没有 CloudWatch `Unit` 的情况下收集，但是您可以通过向 CloudWatch 代理配置文件添加参数来为每个指标指定单位。有关更多信息，请参阅 [Linux 部分](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section)。


| 指标 | CloudWatch 的指标名称 | 说明 | 
| --- | --- | --- | 
|  `utilization_gpu` |  `nvidia_smi_utilization_gpu` |  在过去的采样周期内 GPU 上的一个或多个内核运行的时间百分比。  | 
|  `temperature_gpu` |  `nvidia_smi_temperature_gpu` |  GPU 核心温度（以摄氏度为单位）。  | 
|  `power_draw` |  `nvidia_smi_power_draw` |  上次测量的整个显卡功耗（以瓦为单位）。  | 
|  `utilization_memory` |  `nvidia_smi_utilization_memory` |  在过去的样本周期内读取或写入全局（设备）内存的时间百分比。  | 
|  `fan_speed` |  `nvidia_smi_fan_speed` |  设备风扇目前预计以最大风扇速度运行的百分比。  | 
|  `memory_total` |  `nvidia_smi_memory_total` |  报告的总内存（以 MB 为单位）。  | 
|  `memory_used` |  `nvidia_smi_memory_used` |  已使用的内存（以 MB 为单位）。  | 
|  `memory_free` |  `nvidia_smi_memory_free` |  空闲内存（以 MB 为单位）。  | 
|  `pcie_link_gen_current` |  `nvidia_smi_pcie_link_gen_current` |  当前链接生成。  | 
|  `pcie_link_width_current` |  `nvidia_smi_pcie_link_width_current` |  当前链接宽度。  | 
|  `encoder_stats_session_count` |  `nvidia_smi_encoder_stats_session_count` |  当前编码器会话数量。  | 
|  `encoder_stats_average_fps` |  `nvidia_smi_encoder_stats_average_fps` |  每秒编码帧数的移动平均值。  | 
|  `encoder_stats_average_latency` |  `nvidia_smi_encoder_stats_average_latency` |  编码延迟的移动平均值（以微秒为单位）。  | 
|  `clocks_current_graphics` |  `nvidia_smi_clocks_current_graphics` |  显卡（着色器）时钟的当前频率。  | 
|  `clocks_current_sm` |  `nvidia_smi_clocks_current_sm` |  流式多处理器（SM）时钟的当前频率。  | 
|  `clocks_current_memory` |  `nvidia_smi_clocks_current_memory` |  内存时钟的当前频率。  | 
|  `clocks_current_video` |  `nvidia_smi_clocks_current_video` |  视频（编码器加解码器）时钟的当前频率。  | 

所有这些指标都使用以下维度收集:


| 维度 | 说明 | 
| --- | --- | 
|  `index` |  此服务器上 GPU 的唯一标识符。表示设备的 NVIDIA 管理库（NVML）索引。  | 
|  `name` |  GPU 类型。例如，`NVIDIA Tesla A100`  | 
|  `arch` |  服务器架构。  | 