Raccogli NVIDIA GPU metriche - Amazon CloudWatch

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Raccogli NVIDIA GPU metriche

È possibile utilizzare l' CloudWatch agente per raccogliere NVIDIA GPU metriche dai server Linux. Per configurarlo, aggiungi una nvidia_gpu sezione all'interno della metrics_collected sezione del file di configurazione dell' CloudWatch agente. Per ulteriori informazioni, consulta Sezione Linux.

Inoltre, sull'istanza deve essere installato un NVIDIA driver. NVIDIAi driver sono preinstallati su alcune Amazon Machine Images (AMIs). In caso contrario, il driver può essere installato manualmente. Per ulteriori informazioni, consulta Installare NVIDIA i driver sulle istanze Linux.

È possibile raccogliere i seguenti parametri. Tutte queste metriche vengono raccolte senza CloudWatch Unit, ma è possibile specificare un'unità per ogni metrica aggiungendo un parametro al file di configurazione dell' CloudWatch agente. Per ulteriori informazioni, consulta Sezione Linux.

Parametro Nome della metrica in CloudWatch Descrizione

utilization_gpu

nvidia_smi_utilization_gpu

La percentuale di tempo durante l'ultimo periodo di campionamento durante il quale uno o più kernel GPU erano in esecuzione.

temperature_gpu

nvidia_smi_temperature_gpu

La GPU temperatura interna in gradi Celsius.

power_draw

nvidia_smi_power_draw

L'ultimo assorbimento di potenza misurato per l'intera scheda, in watt.

utilization_memory

nvidia_smi_utilization_memory

La percentuale di tempo nell'ultimo periodo di campionamento in cui la memoria globale (dispositivo) veniva letta o scritta.

fan_speed

nvidia_smi_fan_speed

La percentuale di velocità massima attualmente prevista per il funzionamento della ventola del dispositivo.

memory_total

nvidia_smi_memory_total

Memoria totale riportata, in MB.

memory_used

nvidia_smi_memory_used

Memoria utilizzata, in MB.

memory_free

nvidia_smi_memory_free

Memoria libera, in MB.

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

L'attuale generazione del collegamento.

pcie_link_width_current

nvidia_smi_pcie_link_width_current

L'attuale larghezza del collegamento.

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

Il numero attuale di sessioni dell'encoder.

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

La media mobile dei fotogrammi di codifica al secondo.

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

La media mobile della latenza di codifica in microsecondi.

clocks_current_graphics

nvidia_smi_clocks_current_graphics

L'attuale frequenza di clock della scheda video (shader).

clocks_current_sm

nvidia_smi_clocks_current_sm

L'attuale frequenza di clock dello Streaming Multiprocessor (SM).

clocks_current_memory

nvidia_smi_clocks_current_memory

L'attuale frequenza di clock della memoria.

clocks_current_video

nvidia_smi_clocks_current_video

L'attuale frequenza di clock del video (encoder più decoder).

Tutti questi parametri vengono raccolti con le seguenti dimensioni:

Dimensione Descrizione

index

Un identificatore univoco per il GPU su questo server. Rappresenta l'indice NVIDIA Management Library (NVML) del dispositivo.

name

Il tipo diGPU. Ad esempio, NVIDIA Tesla A100

host

Il nome host del server.