在集群的头节点上验证 Prometheus 设置 HyperPod

成功设置安装了导出器包的 HyperPod 集群后，请检查集群的主节点上是否正确设置了 Prometheus。 HyperPod

连接到集群的主节点。有关访问节点的说明，请参见访问您的 SageMaker HyperPod集群节点。

运行以下命令验证生命周期脚本 install_prometheus.sh 创建的 Prometheus 配置和服务文件是否在控制器节点上运行。输出结果应显示活动状态为 active (running)。


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

按如下步骤验证 Prometheus 配置文件。输出结果必须与下面类似，三个出口程序配置了正确的计算节点 IP 地址。


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

要测试 Prometheus 是否正确导出 Slurm、DCGM 和 EFA 指标，请在主节点的 :9090 端口为 Prometheus 运行以下 curl 命令。
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
通过控制器节点的 Prometheus 远程写入配置将指标导出到 Amazon Managed Service for Prometheus Workspace 后，您就可以进入下一个主题，设置 Amazon Managed Grafana 面板来显示指标。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

在 HyperPod 集群上安装指标导出器包

设置 Amazon Managed Grafana 工作区