Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Installa i pacchetti Metrics Exporter sul tuo cluster HyperPod
Nella configurazione di base, gli script del ciclo di vita forniti dal SageMaker HyperPod team includono anche l'installazione di vari pacchetti Metric Exporter. Per attivare la fase di installazione, l'unica cosa che devi fare è impostare il parametro nel file. enable_observability=True
config.py
Nome | Nodo di destinazione per la distribuzione degli script | Descrizione dell'esportatore |
Esportatore di rifiuti per Prometheus |
Nodo Head (controller) |
Esporta le metriche di Slurm Accounting. |
Nodo di calcolo |
Esporta le metriche dai nodi del cluster e. EFA Il pacchetto è un fork dell'esportatore di nodi Prometheus |
|
Nodo di elaborazione |
Esporta le NVIDIA DCGM metriche relative allo stato e alle prestazioni di. NVIDIA GPUs |
All'enable_observability=True
interno del config.py
lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
Sui nodi di calcolo, lo script installa l'esportatore di nodi NVIDIA Data Center GPU Management (DCGM) e l'esportatore di nodi Elastic Fabric Adapter (EFA). L'DCGMesportatore è un esportatore di Prometheus che raccoglie metriche da cui monitorare l'utilizzo NVIDIAGPUs, le prestazioni e lo stato. GPU L'esportatore di EFA nodi, invece, raccoglie le metriche relative all'interfaccia di EFA rete, essenziale per le comunicazioni a bassa latenza e ad alta larghezza di banda nei cluster. HPC
Sul nodo principale, lo script installa l'esportatore Slurm per Prometheus e il software open source Prometheus.
Nota che gli script del ciclo di vita sono progettati per installare tutti i pacchetti di esportazione come contenitori docker, quindi il pacchetto Docker deve essere installato anche sui nodi head e compute. Gli script per questi componenti sono comodamente disponibili nella cartella del repository Awsome Distributed Training. utils
Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti di esportazione, passa all'argomento successivo per completare la configurazione di Amazon Managed Service for Prometheus e Amazon Managed Grafana.