Collectez NVIDIA GPU des métriques - Amazon CloudWatch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Collectez NVIDIA GPU des métriques

Vous pouvez utiliser l' CloudWatch agent pour collecter des NVIDIA GPU métriques à partir de serveurs Linux. Pour configurer cela, ajoutez une nvidia_gpu section à l'intérieur de la metrics_collected section du fichier de configuration de l' CloudWatch agent. Pour de plus amples informations, veuillez consulter Section Linux.

En outre, un NVIDIA pilote doit être installé sur l'instance. NVIDIApilotes préinstallés sur certaines Amazon Machine Images (AMIs). Sinon, vous pouvez installer le pilote manuellement. Pour plus d'informations, consultez Installer des NVIDIA pilotes sur des instances Linux.

Les métriques suivantes peuvent être collectées. Toutes ces métriques sont collectées sans aucun CloudWatch Unit, mais vous pouvez spécifier une unité pour chaque métrique en ajoutant un paramètre au fichier de configuration de l' CloudWatch agent. Pour de plus amples informations, veuillez consulter Section Linux.

Métrique Nom de la métrique dans CloudWatch Description

utilization_gpu

nvidia_smi_utilization_gpu

Pourcentage de temps pendant lequel un ou plusieurs noyaux GPU étaient en fonctionnement au cours de la dernière période d'échantillonnage.

temperature_gpu

nvidia_smi_temperature_gpu

GPUTempérature centrale en degrés Celsius.

power_draw

nvidia_smi_power_draw

Dernière consommation d'énergie mesurée pour l'ensemble de la carte, en watts.

utilization_memory

nvidia_smi_utilization_memory

Pourcentage de temps sur la dernière période d'échantillonnage au cours de laquelle la mémoire globale (périphérique) était en cours de lecture ou d'écriture.

fan_speed

nvidia_smi_fan_speed

Pourcentage de la vitesse maximale du ventilateur auquel le ventilateur de l'appareil est censé fonctionner.

memory_total

nvidia_smi_memory_total

Mémoire totale déclarée, en Mo.

memory_used

nvidia_smi_memory_used

Mémoire utilisée, en Mo.

memory_free

nvidia_smi_memory_free

Mémoire libre, en Mo.

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

Génération de liens actuelle.

pcie_link_width_current

nvidia_smi_pcie_link_width_current

Largeur de liens actuelle.

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

Nombre actuel de sessions de l'encodeur.

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

Moyenne mobile des images d'encodage par seconde.

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

Moyenne mobile de la latence d'encodage en microsecondes.

clocks_current_graphics

nvidia_smi_clocks_current_graphics

Fréquence actuelle de l'horloge de graphiques (ombrage).

clocks_current_sm

nvidia_smi_clocks_current_sm

Fréquence actuelle de l'horloge multiprocesseur de streaming (SM).

clocks_current_memory

nvidia_smi_clocks_current_memory

Fréquence actuelle de l'horloge mémoire.

clocks_current_video

nvidia_smi_clocks_current_video

Fréquence actuelle des horloges vidéo (encodeur et décodeur).

Toutes ces mesures sont collectées avec les dimensions suivantes :

Dimension Description

index

Un identifiant unique pour le GPU sur ce serveur. Représente l'index de la bibliothèque de NVIDIA gestion (NVML) du périphérique.

name

Le type deGPU. Par exemple, NVIDIA Tesla A100

host

Nom d'hôte du serveur.