Raccogli NVIDIA GPU metriche

È possibile utilizzare l' CloudWatch agente per raccogliere NVIDIA GPU metriche dai server Linux. Per configurarlo, aggiungi una nvidia_gpu sezione all'interno della metrics_collected sezione del file di configurazione dell' CloudWatch agente. Per ulteriori informazioni, consulta Sezione Linux.

Inoltre, sull'istanza deve essere installato un NVIDIA driver. NVIDIAi driver sono preinstallati su alcune Amazon Machine Images (AMIs). In caso contrario, il driver può essere installato manualmente. Per ulteriori informazioni, consulta Installare NVIDIA i driver sulle istanze Linux.

È possibile raccogliere i seguenti parametri. Tutte queste metriche vengono raccolte senza CloudWatch Unit, ma è possibile specificare un'unità per ogni metrica aggiungendo un parametro al file di configurazione dell' CloudWatch agente. Per ulteriori informazioni, consulta Sezione Linux.

Parametro	Nome della metrica in CloudWatch	Descrizione
`utilization_gpu`	`nvidia_smi_utilization_gpu`	La percentuale di tempo durante l'ultimo periodo di campionamento durante il quale uno o più kernel GPU erano in esecuzione.
`temperature_gpu`	`nvidia_smi_temperature_gpu`	La GPU temperatura interna in gradi Celsius.
`power_draw`	`nvidia_smi_power_draw`	L'ultimo assorbimento di potenza misurato per l'intera scheda, in watt.
`utilization_memory`	`nvidia_smi_utilization_memory`	La percentuale di tempo nell'ultimo periodo di campionamento in cui la memoria globale (dispositivo) veniva letta o scritta.
`fan_speed`	`nvidia_smi_fan_speed`	La percentuale di velocità massima attualmente prevista per il funzionamento della ventola del dispositivo.
`memory_total`	`nvidia_smi_memory_total`	Memoria totale riportata, in MB.
`memory_used`	`nvidia_smi_memory_used`	Memoria utilizzata, in MB.
`memory_free`	`nvidia_smi_memory_free`	Memoria libera, in MB.
`pcie_link_gen_current`	`nvidia_smi_pcie_link_gen_current`	L'attuale generazione del collegamento.
`pcie_link_width_current`	`nvidia_smi_pcie_link_width_current`	L'attuale larghezza del collegamento.
`encoder_stats_session_count`	`nvidia_smi_encoder_stats_session_count`	Il numero attuale di sessioni dell'encoder.
`encoder_stats_average_fps`	`nvidia_smi_encoder_stats_average_fps`	La media mobile dei fotogrammi di codifica al secondo.
`encoder_stats_average_latency`	`nvidia_smi_encoder_stats_average_latency`	La media mobile della latenza di codifica in microsecondi.
`clocks_current_graphics`	`nvidia_smi_clocks_current_graphics`	L'attuale frequenza di clock della scheda video (shader).
`clocks_current_sm`	`nvidia_smi_clocks_current_sm`	L'attuale frequenza di clock dello Streaming Multiprocessor (SM).
`clocks_current_memory`	`nvidia_smi_clocks_current_memory`	L'attuale frequenza di clock della memoria.
`clocks_current_video`	`nvidia_smi_clocks_current_video`	L'attuale frequenza di clock del video (encoder più decoder).

Tutti questi parametri vengono raccolti con le seguenti dimensioni:

Dimensione	Descrizione
`index`	Un identificatore univoco per il GPU su questo server. Rappresenta l'indice NVIDIA Management Library (NVML) del dispositivo.
`name`	Il tipo diGPU. Ad esempio, `NVIDIA Tesla A100`
`host`	Il nome host del server.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Raccolta di parametri sulle prestazioni di rete

Raccogli le metriche di Java Management Extensions (JMX)