本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在集群的头节点上验证 Prometheus 设置 HyperPod
成功设置安装了导出器包的 HyperPod 集群后,请检查集群的主节点上是否正确设置了 Prometheus。 HyperPod
-
连接到集群的主节点。有关访问节点的说明,请参见 访问您的 SageMaker HyperPod集群节点。
-
运行以下命令验证生命周期脚本
install_prometheus.sh
创建的 Prometheus 配置和服务文件是否在控制器节点上运行。输出结果应显示活动状态为active (running)
。$
sudo systemctl status prometheus
• prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active:
active (running)
since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml -
按如下步骤验证 Prometheus 配置文件。输出结果必须与下面类似,三个出口程序配置了正确的计算节点 IP 地址。
$
cat /etc/prometheus/prometheus.yml
global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
-
要测试 Prometheus 是否正确导出 Slurm、DCGM 和 EFA 指标,请在主节点的
:9090
端口为 Prometheus 运行以下curl
命令。$
curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
通过控制器节点的 Prometheus 远程写入配置将指标导出到 Amazon Managed Service for Prometheus Workspace 后,您就可以进入下一个主题,设置 Amazon Managed Grafana 面板来显示指标。