

# Colete métricas de GPU NVIDIA
<a name="CloudWatch-Agent-NVIDIA-GPU"></a>

 Você pode usar o atendente do CloudWatch para coletar métricas de GPU NVIDIA de servidores Linux. Para configurar, adicione uma seção `nvidia_gpu` à seção `metrics_collected` do arquivo de configuração do atendente do CloudWatch. Para obter mais informações, consulte [Seção Linux](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section). 

Além disso, a instância deve ter um driver NVIDIA instalado. Os drivers NVIDIA estão pré-instalados em algumas imagens de máquina da Amazon (AMIs). Caso contrário, é possível instalar o driver manualmente. Para obter mais informações, consulte [Instalação de drivers NVIDIA em instâncias Linux](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html). 

As seguintes métricas podem ser coletadas. Todas essas métricas são coletadas sem uma `Unit` do CloudWatch, mas você pode especificar uma unidade para cada métrica adicionando um parâmetro ao arquivo de configuração do atendente CloudWatch. Para obter mais informações, consulte [Seção Linux](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section).


| Métrica | Nome da métrica no CloudWatch | Descrição | 
| --- | --- | --- | 
|  `utilization_gpu` |  `nvidia_smi_utilization_gpu` |  A porcentagem de tempo do período amostral anterior durante a qual um ou mais kernals na GPU estavam sendo executados.  | 
|  `temperature_gpu` |  `nvidia_smi_temperature_gpu` |  A temperatura principal da GPU em graus Celsius.  | 
|  `power_draw` |  `nvidia_smi_power_draw` |  O último consumo de energia medido para toda a placa, em watts.  | 
|  `utilization_memory` |  `nvidia_smi_utilization_memory` |  A porcentagem de tempo do período de amostra anterior durante a qual a memória global (dispositivo) estava sendo lida ou gravada.  | 
|  `fan_speed` |  `nvidia_smi_fan_speed` |  A porcentagem da velocidade máxima do ventilador em que o ventilador do dispositivo deve funcionar atualmente.  | 
|  `memory_total` |  `nvidia_smi_memory_total` |  Memória total reportada, em MB.  | 
|  `memory_used` |  `nvidia_smi_memory_used` |  Memória utilizada, em MB.  | 
|  `memory_free` |  `nvidia_smi_memory_free` |  Memória livre, em MB.  | 
|  `pcie_link_gen_current` |  `nvidia_smi_pcie_link_gen_current` |  A geração de links atual.  | 
|  `pcie_link_width_current` |  `nvidia_smi_pcie_link_width_current` |  A largura do link atual.  | 
|  `encoder_stats_session_count` |  `nvidia_smi_encoder_stats_session_count` |  Número atual de sessões de codificador.  | 
|  `encoder_stats_average_fps` |  `nvidia_smi_encoder_stats_average_fps` |  A média móvel dos quadros de codificação por segundo.  | 
|  `encoder_stats_average_latency` |  `nvidia_smi_encoder_stats_average_latency` |  A média móvel da latência de codificação em microssegundos.  | 
|  `clocks_current_graphics` |  `nvidia_smi_clocks_current_graphics` |  A frequência atual do relógio gráfico (sombreador).  | 
|  `clocks_current_sm` |  `nvidia_smi_clocks_current_sm` |  A frequência atual do relógio Streaming Multiprocessor (SM – Multiprocessador de transmissão).  | 
|  `clocks_current_memory` |  `nvidia_smi_clocks_current_memory` |  A frequência atual do relógio de memória.  | 
|  `clocks_current_video` |  `nvidia_smi_clocks_current_video` |  A frequência atual dos relógios de vídeo (codificador e decodificador).  | 

Todas essas métricas são coletadas com as seguintes dimensões:


| Dimensão | Descrição | 
| --- | --- | 
|  `index` |  Um identificador exclusivo da GPU neste servidor. Representa o índice NVIDIA Management Library (NVML – Biblioteca de gerenciamento NVIDIA) do dispositivo.  | 
|  `name` |  O tipo de GPU. Por exemplo, `NVIDIA Tesla A100`  | 
|  `arch` |  A arquitetura do servidor.  | 