Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Installez des packages d'exportation de métriques sur votre HyperPod cluster
Dans la configuration de base, les scripts de cycle de vie fournis par l' SageMaker HyperPod équipe incluent également l'installation de divers packages d'exportation de métriques. Pour activer l'étape d'installation, il vous suffit de définir le paramètre enable_observability=True
dans le config.py
Nom | Nœud cible de déploiement de scripts | Description de l'exportateur |
Exportateur de lisier pour Prometheus |
Nœud principal (contrôleur) |
Exporte les métriques de Slurm Accounting. |
Nœud de calcul |
Exporte les métriques depuis les nœuds du cluster etEFA. Le package est un fork de l'exportateur de nœuds Prometheus |
|
NVIDIAExportateur GPU de gestion du centre de données (DCGM) |
Nœud de calcul |
Exporte NVIDIA DCGM les mesures relatives à la santé et aux performances de NVIDIAGPUs. |
enable_observability=True
Dans le config.py
lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
Sur les nœuds de calcul, le script installe l'exportateur de nœuds NVIDIA Data Center GPU Management (DCGM) et l'exportateur de nœuds Elastic Fabric Adapter (EFA). L'DCGMexportateur est un exportateur pour Prometheus qui collecte des métriques auprès de lui, permettant ainsi NVIDIA GPUs de surveiller l'utilisation, les performances et l'état GPU de santé. L'exportateur de EFA nœuds, quant à lui, collecte les métriques relatives à l'interface EFA réseau, ce qui est essentiel pour les communications à faible latence et à bande passante élevée dans les clusters. HPC
Sur le nœud principal, le script installe l'exportateur Slurm pour Prometheus et le logiciel libre Prometheus.
Notez que les scripts de cycle de vie sont conçus pour installer tous les packages d'exportation en tant que conteneurs Docker. Le package Docker doit donc également être installé à la fois sur les nœuds de tête et de calcul. Les scripts de ces composants sont facilement fournis dans le utils
Une fois que vous avez correctement configuré votre HyperPod cluster installé avec les packages d'exportation, passez à la rubrique suivante pour terminer la configuration d'Amazon Managed Service pour Prometheus et Amazon Managed Grafana.