翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
HyperPod クラスターのヘッドノードで Prometheus 設定を検証する
エクスポーターパッケージでインストールされた HyperPod クラスターを正常にセットアップしたら、 HyperPod クラスターのヘッドノードで Prometheus が適切にセットアップされているかどうかを確認します。
-
クラスターのヘッドノードに接続します。ノードへのアクセス手順については、「」を参照してくださいクラスターノードにアクセスする SageMaker HyperPod 。
-
次のコマンドを実行して、ライフサイクルスクリプトによって作成された Prometheus 設定とサービスファイルがコントローラーノードで実行
install_prometheus.sh
されていることを確認します。出力には、アクティブステータスが と表示されますactive (running)
。$
sudo systemctl status prometheus
• prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active:
active (running)
since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml -
Prometheus 設定ファイルを次のように検証します。出力は、次のようになります。3 つのエクスポーターが適切なコンピューティングノード IP アドレスで設定されている必要があります。
$
cat /etc/prometheus/prometheus.yml
global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
-
Prometheus が Slurm、、DCGMおよび EFAメトリクスを適切にエクスポートしているかどうかをテストするには、ヘッドノード
:9090
のポートで Prometheus に対して次のcurl
コマンドを実行します。$
curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
コントローラーノードから Prometheus リモート書き込み設定を使用してメトリクスを Amazon Managed Service for Prometheus Workspace にエクスポートすると、次のトピックに進み、メトリクスを表示する Amazon Managed Grafana ダッシュボードを設定できます。