HyperPod クラスターのヘッドノードで Prometheus 設定を検証する

エクスポーターパッケージでインストールされた HyperPod クラスターを正常にセットアップしたら、 HyperPod クラスターのヘッドノードで Prometheus が適切にセットアップされているかどうかを確認します。

クラスターのヘッドノードに接続します。ノードへのアクセス手順については、「」を参照してくださいクラスターノードにアクセスする SageMaker HyperPod 。

次のコマンドを実行して、ライフサイクルスクリプトによって作成された Prometheus 設定とサービスファイルがコントローラーノードで実行install_prometheus.shされていることを確認します。出力には、アクティブステータスがと表示されますactive (running)。


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

Prometheus 設定ファイルを次のように検証します。出力は、次のようになります。3 つのエクスポーターが適切なコンピューティングノード IP アドレスで設定されている必要があります。


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

Prometheus が Slurm、、DCGMおよび EFAメトリクスを適切にエクスポートしているかどうかをテストするには、ヘッドノード:9090のポートで Prometheus に対して次のcurlコマンドを実行します。
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
コントローラーノードから Prometheus リモート書き込み設定を使用してメトリクスを Amazon Managed Service for Prometheus Workspace にエクスポートすると、次のトピックに進み、メトリクスを表示する Amazon Managed Grafana ダッシュボードを設定できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

メトリクスエクスポーターパッケージを HyperPod クラスターにインストールする

Amazon Managed Grafana ワークスペースを設定する