CloudWatch solution : NVIDIA GPU charge de travail sur Amazon EC2 - Amazon CloudWatch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

CloudWatch solution : NVIDIA GPU charge de travail sur Amazon EC2

Cette solution vous permet de configurer la collecte de out-of-the-box métriques à l'aide d' CloudWatch agents pour les NVIDIA GPU charges de travail exécutées sur des EC2 instances. En outre, il vous aide à configurer un tableau de CloudWatch bord préconfiguré. Pour des informations générales sur toutes les solutions CloudWatch d'observabilité, consultezCloudWatch solutions d'observabilité.

Prérequis

Cette solution est pertinente pour les conditions suivantes :

  • Calcul : Amazon EC2

  • Supporte jusqu'à 500 GPUs dans toutes les EC2 instances d'une même instance Région AWS

  • Dernière version de l' CloudWatch agent

  • SSMagent installé sur l'EC2instance

  • Un NVIDIA pilote doit être installé sur l'EC2instance. NVIDIAles pilotes sont préinstallés sur certaines Amazon Machine Images (AMIs). Sinon, vous pouvez installer le pilote manuellement. Pour plus d'informations, consultez Installer des NVIDIA pilotes sur des instances Linux.

Note

AWS Systems Manager (SSMagent) est préinstallé sur certaines Amazon Machine Images (AMIs) fournies par des tiers AWS de confiance. Si l'agent n'est pas installé, vous pouvez l'installer manuellement en suivant la procédure correspondant à votre type de système d'exploitation.

Avantages

La solution assure la NVIDIA surveillance et fournit des informations précieuses pour les cas d'utilisation suivants :

  • Analysez GPU et utilisez la mémoire pour détecter les problèmes de performance ou le besoin de ressources supplémentaires.

  • Surveillez la température et la consommation d'énergie pour garantir un GPUs fonctionnement dans les limites de sécurité.

  • Évaluez les performances de l'encodeur pour les charges de travail GPU vidéo.

  • Vérifiez la PCIe connectivité en fonction de la génération et de la largeur attendues.

  • Surveillez les vitesses d'GPUhorloge pour détecter les problèmes de mise à l'échelle et de régulation.

Voici les principaux avantages de cette solution :

  • Automatise la collecte des métriques pour NVIDIA utiliser la configuration des CloudWatch agents, éliminant ainsi l'instrumentation manuelle.

  • Fournit un tableau de CloudWatch bord consolidé préconfiguré pour les NVIDIA métriques. Le tableau de bord gérera automatiquement les métriques des nouvelles NVIDIA EC2 instances configurées à l'aide de la solution, même si ces métriques n'existent pas lorsque vous créez le tableau de bord pour la première fois.

L'image suivante est un exemple du tableau de bord de cette solution.

Exemple de tableau de bord pour NVIDIA GPU la solution.

Coûts

Cette solution crée et utilise les ressources de votre compte. L'utilisation standard vous est facturée, y compris les frais suivants :

  • Toutes les mesures collectées par l' CloudWatch agent sont facturées en tant que mesures personnalisées. Le nombre de métriques utilisées par cette solution dépend du nombre d'EC2hôtes.

    • Chaque EC2 hôte configuré pour la solution publie un total de 17 métriques parGPU.

  • Un tableau de bord personnalisé.

  • APIopérations demandées par l' CloudWatch agent pour publier les métriques. Avec la configuration par défaut de cette solution, l' CloudWatch agent appelle PutMetricDataune fois par minute pour chaque EC2 hôte. Cela signifie qu'ils PutMetricDataAPIseront appelés 30*24*60=43,200 dans un délai de 30 jours par mois pour chaque EC2 hôte.

Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing.

Le calculateur de prix peut vous aider à estimer les coûts mensuels approximatifs liés à l'utilisation de cette solution.

Pour utiliser le calculateur de prix pour estimer les coûts mensuels de votre solution
  1. Ouvrez le calculateur CloudWatch de prix Amazon.

  2. Pour Choisir une région, sélectionnez la région dans laquelle vous souhaitez déployer la solution.

  3. Dans la section Mesures, pour Nombre de mesures, entrez17 * average number of GPUs per EC2 host * number of EC2 instances configured for this solution.

  4. Dans la APIssection, pour Nombre de API demandes, entrez43200 * number of EC2 instances configured for this solution.

  5. Par défaut, l' CloudWatch agent effectue une PutMetricDataopération par minute pour chaque EC2 hôte.

  6. Dans la section Tableaux de bord et alarmes, pour Nombre de tableaux de bord, entrez. 1

  7. Vous pouvez consulter vos coûts estimés mensuels au bas du calculateur de prix.

CloudWatch configuration de l'agent pour cette solution

L' CloudWatch agent est un logiciel qui s'exécute de manière continue et autonome sur vos serveurs et dans des environnements conteneurisés. Il collecte des métriques, des journaux et des traces à partir de votre infrastructure et de vos applications et les envoie à CloudWatch X-Ray.

Pour plus d'informations sur l' CloudWatch agent, consultezCollectez des métriques, des journaux et des traces avec l' CloudWatch agent.

La configuration de l'agent de cette solution collecte un ensemble de mesures pour vous aider à commencer à surveiller et à observer votre NVIDIAGPU. L' CloudWatch agent peut être configuré pour collecter plus de NVIDIA GPU métriques que ce que le tableau de bord affiche par défaut. Pour obtenir la liste de tous les NVIDIA GPU indicateurs que vous pouvez collecter, consultezCollectez NVIDIA GPU des métriques.

Configuration de l'agent pour cette solution

Les métriques collectées par l'agent sont définies dans la configuration de l'agent. La solution fournit des configurations d'agents permettant de collecter les métriques recommandées avec des dimensions adaptées au tableau de bord de la solution.

Utilisez la configuration d' CloudWatch agent suivante sur EC2 les instances avec NVIDIAGPUs. La configuration sera stockée en tant que paramètre dans SSM le magasin de paramètres, comme détaillé plus loin dansÉtape 2 : enregistrer le fichier de configuration d' CloudWatch agent recommandé dans le magasin de paramètres de Systems Manager.

{ "metrics": { "namespace": "CWAgent", "append_dimensions": { "InstanceId": "${aws:InstanceId}" }, "metrics_collected": { "nvidia_gpu": { "measurement": [ "utilization_gpu", "temperature_gpu", "power_draw", "utilization_memory", "fan_speed", "memory_total", "memory_used", "memory_free", "pcie_link_gen_current", "pcie_link_width_current", "encoder_stats_session_count", "encoder_stats_average_fps", "encoder_stats_average_latency", "clocks_current_graphics", "clocks_current_sm", "clocks_current_memory", "clocks_current_video" ], "metrics_collection_interval": 60 } } }, "force_flush_interval": 60 }

Déployez l'agent correspondant à votre solution

Il existe plusieurs approches pour installer l' CloudWatch agent, selon le cas d'utilisation. Nous recommandons d'utiliser Systems Manager pour cette solution. Il fournit une expérience de console et simplifie la gestion d'un parc de serveurs gérés au sein d'un seul AWS compte. Les instructions de cette section utilisent Systems Manager et sont destinées aux situations où l' CloudWatch agent n'est pas exécuté avec des configurations existantes. Vous pouvez vérifier si l' CloudWatch agent est en cours d'exécution en suivant les étapes décrites dansVérifiez que l' CloudWatch agent est en cours d'exécution.

Si vous exécutez déjà l' CloudWatch agent sur les EC2 hôtes sur lesquels la charge de travail est déployée et que vous gérez les configurations de l'agent, vous pouvez ignorer les instructions de cette section et suivre votre mécanisme de déploiement existant pour mettre à jour la configuration. Assurez-vous de fusionner la configuration de l'agent NVIDIA GPU avec votre configuration d'agent existante, puis de déployer la configuration fusionnée. Si vous utilisez Systems Manager pour stocker et gérer la configuration de l' CloudWatch agent, vous pouvez fusionner la configuration avec la valeur de paramètre existante. Pour plus d'informations, consultez la section Gestion des fichiers de configuration des CloudWatch agents.

Note

L'utilisation de Systems Manager pour déployer les configurations d' CloudWatch agent suivantes remplacera ou remplacera toute configuration d' CloudWatch agent existante sur vos EC2 instances. Vous pouvez modifier cette configuration en fonction de votre environnement ou de votre cas d'utilisation unique. Les métriques définies dans la configuration sont le minimum requis pour le tableau de bord fourni avec la solution.

Le processus de déploiement comprend les étapes suivantes :

  • Étape 1 : Assurez-vous que les EC2 instances cibles disposent des IAM autorisations requises.

  • Étape 2 : Stockez le fichier de configuration d'agent recommandé dans le magasin de paramètres de Systems Manager.

  • Étape 3 : installez l' CloudWatch agent sur une ou plusieurs EC2 instances à l'aide d'une AWS CloudFormation pile.

  • Étape 4 : Vérifiez que la configuration de l'agent est correctement configurée.

Étape 1 : Assurez-vous que les EC2 instances cibles disposent des IAM autorisations requises

Vous devez autoriser Systems Manager à installer et configurer l' CloudWatch agent. Vous devez également autoriser l' CloudWatch agent à publier des données télémétriques depuis votre EC2 instance vers. CloudWatch Assurez-vous que les mazonSSMManaged InstanceCore IAM politiques CloudWatchAgentServerPolicyet A sont attachées au IAM rôle attaché à l'instance.

Étape 2 : enregistrer le fichier de configuration d' CloudWatch agent recommandé dans le magasin de paramètres de Systems Manager

Parameter Store simplifie l'installation de l' CloudWatch agent sur une EC2 instance en stockant et en gérant de manière sécurisée les paramètres de configuration, éliminant ainsi le besoin de valeurs codées en dur. Cela garantit un processus de déploiement plus sûr et plus flexible, permettant une gestion centralisée et des mises à jour simplifiées des configurations sur plusieurs instances.

Procédez comme suit pour enregistrer le fichier de configuration d' CloudWatch agent recommandé en tant que paramètre dans Parameter Store.

Pour créer le fichier de configuration de CloudWatch l'agent en tant que paramètre
  1. Ouvrez la AWS Systems Manager console à l'adresse https://console.aws.amazon.com/systems-manager/.

  2. Vérifiez que la région sélectionnée sur la console est celle dans laquelle la NVIDIA GPU charge de travail est exécutée.

  3. Dans le volet de navigation, choisissez Application Management, Parameter Store.

  4. Procédez comme suit pour créer un nouveau paramètre pour la configuration.

    1. Sélectionnez Create parameter (Créer un paramètre).

    2. Dans le champ Nom, entrez un nom que vous utiliserez pour référencer le fichier de configuration de l' CloudWatch agent lors des étapes ultérieures. Par exemple, AmazonCloudWatch-NVIDIA-GPU-Configuration.

    3. (Facultatif) Dans la zone Description, tapez une description pour le paramètre.

    4. Pour le niveau des paramètres, choisissez Standard.

    5. Pour Type, choisissez String (Chaîne).

    6. Pour Type de données, sélectionnez le texte.

    7. Dans la zone Valeur, collez le JSON bloc correspondant répertorié dansConfiguration de l'agent pour cette solution.

    8. Sélectionnez Create parameter (Créer un paramètre).

Étape 3 : Installation de l' CloudWatch agent et application de la configuration à l'aide d'un AWS CloudFormation modèle

Vous pouvez l'utiliser AWS CloudFormation pour installer l'agent et le configurer de manière à utiliser la configuration d' CloudWatch agent que vous avez créée lors des étapes précédentes.

Pour installer et configurer l' CloudWatch agent pour cette solution
  1. Ouvrez l'assistant de création AWS CloudFormation rapide d'une pile à l'aide de ce lien : https://console.aws.amazon.com/cloudformation/accueil ? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions.s3.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw - agent-installation-template -1.0.0.json.

  2. Vérifiez que la région sélectionnée sur la console est celle dans laquelle la NVIDIA GPU charge de travail est exécutée.

  3. Pour Nom de la pile, entrez un nom pour identifier cette pile, par exempleCWAgentInstallationStack.

  4. Dans la section Paramètres, spécifiez les éléments suivants :

    1. Pour CloudWatchAgentConfigSSM, entrez le nom du paramètre Systems Manager pour la configuration de l'agent que vous avez créée précédemment, par exempleAmazonCloudWatch-NVIDIA-GPU-Configuration.

    2. Pour sélectionner les instances cibles, deux options s'offrent à vous.

      1. Pour InstanceIds, spécifiez une liste séparée par IDs des virgules d'instances IDs où vous souhaitez installer l' CloudWatch agent avec cette configuration. Vous pouvez répertorier une ou plusieurs instances.

      2. Si vous déployez à grande échelle, vous pouvez spécifier le TagKeyet le correspondant TagValuepour cibler toutes les EC2 instances avec cette balise et cette valeur. Si vous spécifiez un TagKey, vous devez spécifier un correspondant TagValue. (Pour un groupe Auto Scaling, spécifiez aws:autoscaling:groupName le TagKeyet spécifiez le nom du groupe Auto Scaling TagValueà déployer sur toutes les instances du groupe Auto Scaling.)

  5. Vérifiez les paramètres, puis choisissez Create stack.

Si vous souhaitez d'abord modifier le fichier modèle pour le personnaliser, choisissez l'option Télécharger un fichier modèle sous Create Stack Wizard pour télécharger le modèle modifié. Pour plus d'informations, consultez la section Création d'une pile sur AWS CloudFormation console.

Note

Une fois cette étape terminée, ce paramètre Systems Manager sera associé aux CloudWatch agents exécutés dans les instances ciblées. Cela signifie que :

  1. Si le paramètre Systems Manager est supprimé, l'agent s'arrête.

  2. Si le paramètre Systems Manager est modifié, les modifications de configuration s'appliqueront automatiquement à l'agent à la fréquence planifiée, qui est de 30 jours par défaut.

  3. Si vous souhaitez appliquer immédiatement les modifications à ce paramètre de Systems Manager, vous devez exécuter cette étape à nouveau. Pour plus d'informations sur les associations, consultez la section Utilisation des associations dans Systems Manager.

Étape 4 : vérifier que la configuration de l'agent est correctement configurée

Vous pouvez vérifier si l' CloudWatch agent est installé en suivant les étapes décrites dansVérifiez que l' CloudWatch agent est en cours d'exécution. Si l' CloudWatch agent n'est pas installé et n'est pas en cours d'exécution, assurez-vous que tout est correctement configuré.

Si tout est correctement configuré, vous devriez voir les NVIDIA GPU statistiques publiées sur CloudWatch. Vous pouvez consulter la CloudWatch console pour vérifier qu'ils sont publiés.

Pour vérifier que NVIDIA GPU les métriques sont publiées sur CloudWatch
  1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

  2. Choisissez Métriques, Toutes les métriques.

  3. Assurez-vous d'avoir sélectionné la région dans laquelle vous avez déployé la solution, puis choisissez Espaces de noms personnalisés. CWAgent

  4. Recherchez les métriques mentionnées dansConfiguration de l'agent pour cette solution, telles quenvidia_smi_utilization_gpu. Si vous obtenez des résultats pour ces mesures, celles-ci sont publiées sur CloudWatch.

Création du tableau de bord de NVIDIA GPU la solution

Le tableau de bord fourni par cette solution présente NVIDIA GPUs les métriques en les agrégeant et en les présentant pour toutes les instances. Le tableau de bord présente une répartition des principaux contributeurs (les 10 meilleurs widgets par métrique) pour chaque métrique. Cela vous permet d'identifier rapidement les valeurs aberrantes ou les instances qui contribuent de manière significative aux indicateurs observés.

Pour créer le tableau de bord, vous pouvez utiliser les options suivantes :

  • Utilisez CloudWatch la console pour créer le tableau de bord.

  • Utilisez AWS CloudFormation la console pour déployer le tableau de bord.

  • Téléchargez l' AWS CloudFormation infrastructure sous forme de code et intégrez-la dans le cadre de votre automatisation d'intégration continue (CI).

En utilisant la CloudWatch console pour créer un tableau de bord, vous pouvez prévisualiser le tableau de bord avant de le créer et de le débiter.

Note

Le tableau de bord créé avec AWS CloudFormation cette solution affiche les statistiques de la région dans laquelle la solution est déployée. Assurez-vous de créer la AWS CloudFormation pile dans la région où vos NVIDIA GPU statistiques sont publiées.

Si vous avez spécifié un espace de noms personnalisé autre que CWAgent dans la configuration de l' CloudWatch agent, vous devrez modifier le AWS CloudFormation modèle du tableau de bord pour le CWAgent remplacer par l'espace de noms personnalisé que vous utilisez.

Pour créer le tableau de bord via CloudWatch la console
  1. Ouvrez la CloudWatch console Create Dashboard en utilisant ce lien : https://console.aws.amazon.com/cloudwatch/home ? #dashboards ? dashboardTemplate= NvidiaGpuOnEc 2&referrer=os-catalog.

  2. Vérifiez que la région sélectionnée sur la console est celle dans laquelle la NVIDIA GPU charge de travail est exécutée.

  3. Entrez le nom du tableau de bord, puis choisissez Créer un tableau de bord.

    Pour différencier facilement ce tableau de bord des tableaux de bord similaires dans d'autres régions, nous vous recommandons d'inclure le nom de la région dans le nom du tableau de bord, par exempleNVIDIA-GPU-Dashboard-us-east-1.

  4. Prévisualisez le tableau de bord et choisissez Enregistrer pour créer le tableau de bord.

Pour créer le tableau de bord via AWS CloudFormation
  1. Ouvrez l'assistant de création AWS CloudFormation rapide d'une pile à l'aide de ce lien : https://console.aws.amazon.com/cloudformation/accueil ? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions.s3.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json.

  2. Vérifiez que la région sélectionnée sur la console est celle dans laquelle la NVIDIA GPU charge de travail est exécutée.

  3. Pour Nom de la pile, entrez un nom pour identifier cette pile, par exempleNVIDIA-GPU-DashboardStack.

  4. Dans la section Paramètres, spécifiez le nom du tableau de bord sous le DashboardNameparamètre.

  5. Pour différencier facilement ce tableau de bord des tableaux de bord similaires dans d'autres régions, nous vous recommandons d'inclure le nom de la région dans le nom du tableau de bord, par exempleNVIDIA-GPU-Dashboard-us-east-1.

  6. Reconnaissez les capacités d'accès pour les transformations sous Capacités et transformations. Notez que AWS CloudFormation cela n'ajoute aucune IAM ressource.

  7. Vérifiez les paramètres, puis choisissez Create stack.

  8. Une fois que le statut de la pile est CREATE_ COMPLETE, choisissez l'onglet Ressources sous la pile créée, puis cliquez sur le lien sous Identifiant physique pour accéder au tableau de bord. Vous pouvez également accéder au tableau de bord dans la CloudWatch console en choisissant Tableaux de bord dans le volet de navigation gauche de la console et en recherchant le nom du tableau de bord sous Tableaux de bord personnalisés.

Si vous souhaitez modifier le fichier modèle pour le personnaliser à quelque fin que ce soit, vous pouvez utiliser l'option Télécharger un fichier modèle sous Create Stack Wizard pour télécharger le modèle modifié. Pour plus d'informations, consultez la section Création d'une pile sur AWS CloudFormation console. Vous pouvez utiliser ce lien pour télécharger le modèle : https://aws-observability-solutions.s3.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json.

Commencez avec le NVIDIA GPU tableau de bord

Voici quelques tâches que vous pouvez essayer avec le nouveau NVIDIA GPU tableau de bord. Ces tâches vous permettent de valider le bon fonctionnement du tableau de bord et de vous fournir une expérience pratique de son utilisation pour surveiller votre NVIDIAGPUs. En les essayant, vous vous familiariserez avec la navigation dans le tableau de bord et l'interprétation des indicateurs visualisés.

Examiner GPU l'utilisation

Dans la section Utilisation, recherchez les widgets GPUUtilisation et Utilisation de la mémoire. Ils indiquent le pourcentage de temps pendant lequel la mémoire GPU est activement utilisée pour les calculs et le pourcentage de mémoire globale lue ou écrite, respectivement. Un taux d'utilisation élevé peut indiquer des problèmes de performance potentiels ou le besoin de ressources supplémentaires. GPU

Analyser l'utilisation GPU de la mémoire

Dans la section Mémoire, recherchez les widgets Mémoire totale, Mémoire utilisée et Mémoire libre. Ils fournissent des informations sur la capacité de mémoire globale de la GPUs et sur la quantité de mémoire actuellement consommée ou disponible. La pression de la mémoire peut entraîner des problèmes de performances ou out-of-memory des erreurs. Il est donc important de surveiller ces indicateurs et de s'assurer que suffisamment de mémoire est disponible pour vos charges de travail.

Surveillez la température et la consommation d'énergie

Dans la section Température/Puissance, recherchez les widgets GPUTempérature et Consommation électrique. Ces paramètres sont essentiels pour garantir que vous fonctionnez GPUs dans des limites thermiques et de puissance sûres.

Identifier les performances de l'encodeur

Dans la section Encodeur, recherchez les widgets Nombre de sessions d'encodeurFPS, moyenne et latence moyenne. Ces statistiques sont pertinentes si vous exécutez des charges de travail d'encodage vidéo sur votreGPUs. Surveillez ces indicateurs pour vous assurer que vos encodeurs fonctionnent de manière optimale et identifiez les éventuels goulots d'étranglement ou problèmes de performances.

Vérifier l'état du PCIe lien

Dans la PCIesection, trouvez les widgets de génération de PCIe liens et de largeur de PCIe lien. Ces mesures fournissent des informations sur le PCIe lien qui GPU connecte le système hôte. Assurez-vous que le lien fonctionne à la génération et à la largeur prévues afin d'éviter d'éventuelles limitations de performances dues à des PCIe goulots d'étranglement.

Révisez les GPU horloges

Dans la section Horloge, recherchez les widgets Horloge graphique, Horloge SM, Horloge mémoire et horloge vidéo. Ces mesures indiquent les fréquences de fonctionnement actuelles des différents GPU composants. La surveillance de ces horloges peut aider à identifier les problèmes potentiels liés à la mise à l'échelle de l'GPUhorloge ou à la limitation de fréquence, susceptibles d'avoir un impact sur les performances.