Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Convalida la configurazione di Prometheus sul nodo principale di un cluster HyperPod
Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti exporter, controlla se Prometheus è configurato correttamente sul nodo principale del cluster. HyperPod
-
Connect al nodo principale del cluster. Per istruzioni sull'accesso a un nodo, consultaAccedi ai nodi SageMaker HyperPod del cluster.
-
Esegui il comando seguente per verificare che il file di configurazione e servizio di Prometheus creato dallo script del ciclo
install_prometheus.sh
di vita sia in esecuzione sul nodo controller. L'output dovrebbe mostrare lo stato Attivo come.active (running)
$
sudo systemctl status prometheus
• prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active:
active (running)
since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml -
Convalida il file di configurazione di Prometheus come segue. L'output deve essere simile al seguente, con tre esportatori configurati con gli indirizzi IP dei nodi di calcolo corretti.
$
cat /etc/prometheus/prometheus.yml
global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
-
Per verificare se Prometheus sta esportando Slurm EFA e le metriche correttamenteDCGM, esegui il
curl
seguente comando per Prometheus sulla porta sul nodo principale.:9090
$
curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
Con le metriche esportate in Amazon Managed Service for Prometheus Workspace tramite la configurazione di scrittura remota di Prometheus dal nodo controller, puoi passare all'argomento successivo per configurare le dashboard di Amazon Managed Grafana per visualizzare le metriche.