在 HyperPod 集群上安装指标导出器包 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 HyperPod 集群上安装指标导出器包

基本配置中,该 SageMaker HyperPod 团队提供的生命周期脚本还包括安装各种指标导出器包。要激活安装步骤,您只需在config.py文件enable_observability=True中设置参数即可。生命周期脚本旨在使用以下开源指标导出器包引导您的集群。

名称 脚本部署目标节点 出口商描述
Prometheus 的 Slurm 出口商 头(控制器)节点

导出 Slurm 会计指标。

弹性结构适配器 (EFA) 节点导出器

计算节点

从集群节点导出指标,以及EFA。该软件包是 Prometheus 节点导出器的分支。

NVIDIA数据中心GPU管理 (DCGM) 导出器

计算节点

导出有关运行状况和性能的NVIDIADCGM指标NVIDIAGPUs。

enable_observability=Trueconfig.py文件中,将在lifecycle_script.py脚本中激活以下安装步骤。

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

在计算节点上,该脚本安装NVIDIA数据中心GPU管理 (DCGM) 导出器和弹性结构适配器 (EFA) 节点导出器。DCGM导出器是 Prometheus 的导出器,它NVIDIAGPUs从中收集指标,从而可以监控使用情况、性能GPU和运行状况。另一方面,EFA节点导出器收集与EFA网络接口相关的指标,这对于集群中的低延迟和高带宽通信至关重要。HPC

在头节点上,该脚本安装了 Prometheus 的 Slurm 导出器和 Prometheus 开源软件。Slurm 导出器为 Prometheus 提供了与 Slurm 作业、分区和节点状态相关的指标。

请注意,生命周期脚本旨在将所有导出器包安装为 docker 容器,因此 Docker 包也应安装在头节点和计算节点上。这些组件的脚本可以方便地在 Awsome Distributed Training GitHub 存储库utils文件夹中提供。

成功设置安装了导出器包的 HyperPod 集群后,请继续阅读下一个主题,完成针对 Prometheus 和 Amazon Managed Grafana 的亚马逊托管服务的设置。