本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在集群的头节点上验证 Prometheus 设置 HyperPod
成功设置安装了导出器包的 HyperPod 集群后,请检查集群的主节点上是否正确设置 Prometheus。 HyperPod
-
Connect 连接到集群的主节点。有关访问节点的说明,请参阅访问您的 SageMaker HyperPod集群节点。
-
运行以下命令以验证生命周期
install_prometheus.sh
脚本创建的 Prometheus 配置和服务文件是否在控制器节点上运行。输出应将 “活动” 状态显示为active (running)
。$
sudo systemctl status prometheus
• prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active:
active (running)
since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml -
按如下方式验证 Prometheus 配置文件。输出必须与以下内容类似,三个导出器配置了正确的计算节点 IP 地址。
$
cat /etc/prometheus/prometheus.yml
global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
-
要测试 Prometheus 是否正确导出 Slurm EFA 和指标DCGM,请在头节点的端口上为 Prometheus 运行以下
curl
命令。:9090
$
curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
通过控制器节点的 Prometheus 远程写入配置将指标导出到亚马逊 Prometheus Workspace 托管服务后,您可以继续下一个主题,设置亚马逊托管 Grafana 控制面板来显示指标。