Installa i pacchetti Metrics Exporter sul tuo cluster HyperPod - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Installa i pacchetti Metrics Exporter sul tuo cluster HyperPod

Nella configurazione di base, gli script del ciclo di vita forniti dal SageMaker HyperPod team includono anche l'installazione di vari pacchetti Metric Exporter. Per attivare la fase di installazione, l'unica cosa che devi fare è impostare il parametro nel file. enable_observability=True config.py Gli script del ciclo di vita sono progettati per avviare il cluster con i seguenti pacchetti di esportazione metrica open source.

Nome Nodo di destinazione per la distribuzione degli script Descrizione dell'esportatore
Esportatore di rifiuti per Prometheus Nodo Head (controller)

Esporta le metriche di Slurm Accounting.

Esportatore di nodi Elastic Fabric Adapter () EFA

Nodo di calcolo

Esporta le metriche dai nodi del cluster e. EFA Il pacchetto è un fork dell'esportatore di nodi Prometheus.

NVIDIAEsportatore Data Center Management () GPU DCGM

Nodo di elaborazione

Esporta le NVIDIA DCGM metriche relative allo stato e alle prestazioni di. NVIDIA GPUs

All'enable_observability=Trueinterno del config.pyfile, nello lifecycle_script.pyscript viene attivata la seguente fase di installazione.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

Sui nodi di calcolo, lo script installa l'esportatore di nodi NVIDIA Data Center GPU Management (DCGM) e l'esportatore di nodi Elastic Fabric Adapter (EFA). L'DCGMesportatore è un esportatore di Prometheus che raccoglie metriche da cui monitorare l'utilizzo NVIDIAGPUs, le prestazioni e lo stato. GPU L'esportatore di EFA nodi, invece, raccoglie le metriche relative all'interfaccia di EFA rete, essenziale per le comunicazioni a bassa latenza e ad alta larghezza di banda nei cluster. HPC

Sul nodo principale, lo script installa l'esportatore Slurm per Prometheus e il software open source Prometheus. L'esportatore Slurm fornisce a Prometheus le metriche relative ai lavori, alle partizioni e agli stati dei nodi Slurm.

Nota che gli script del ciclo di vita sono progettati per installare tutti i pacchetti di esportazione come contenitori docker, quindi il pacchetto Docker deve essere installato anche sui nodi head e compute. Gli script per questi componenti sono comodamente disponibili nella cartella del repository Awsome Distributed Training. utils GitHub

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti di esportazione, passa all'argomento successivo per completare la configurazione di Amazon Managed Service for Prometheus e Amazon Managed Grafana.