在 HyperPod 叢集的主機節點上驗證 Prometheus 設定

成功設定與匯出工具套件一起安裝的 HyperPod 叢集後，請檢查是否已在 HyperPod 叢集的頭節點上正確設定 Prometheus。

連接至叢集的主機節點。如需存取節點的說明，請參閱存取 SageMaker HyperPod 叢集節點。

執行下列命令，以確認生命週期指令碼建立的 Prometheus 組態和服務檔案install_prometheus.sh正在控制器節點上執行。輸出應會顯示作用中狀態為 active (running)。


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

驗證 Prometheus 組態檔案，如下所示。輸出必須類似於以下內容，其中三個匯出器已設定正確的運算節點 IP 地址。


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

若要測試 Prometheus 是否正確匯出 Slurm、DCGM 和 EFA 指標，請在主機節點:9090的連接埠上執行下列 Prometheus curl命令。
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
透過從控制器節點的 Prometheus 遠端寫入組態匯出至 Amazon Managed Service for Prometheus Workspace 的指標，您可以繼續下一個主題，設定 Amazon Managed Grafana 儀表板以顯示指標。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

在 HyperPod 叢集上安裝指標匯出工具套件

設定 Amazon Managed Grafana 工作區