本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 HyperPod 集群上安装指标导出器包
在基本配置中,该 SageMaker HyperPod 团队提供的生命周期脚本还包括安装各种指标导出器包。要激活安装步骤,您只需在config.py
enable_observability=True
中设置参数即可。生命周期脚本旨在使用以下开源指标导出器包引导您的集群。
名称 | 脚本部署目标节点 | 出口商描述 |
Prometheus 的 Slurm 出口商 |
头(控制器)节点 |
导出 Slurm 会计指标。 |
计算节点 |
从集群节点导出指标,以及EFA。该软件包是 Prometheus |
|
计算节点 |
导出有关运行状况和性能的NVIDIADCGM指标NVIDIAGPUs。 |
enable_observability=True
在config.py
lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
在计算节点上,该脚本安装NVIDIA数据中心GPU管理 (DCGM) 导出器和弹性结构适配器 (EFA) 节点导出器。DCGM导出器是 Prometheus 的导出器,它NVIDIAGPUs从中收集指标,从而可以监控使用情况、性能GPU和运行状况。另一方面,EFA节点导出器收集与EFA网络接口相关的指标,这对于集群中的低延迟和高带宽通信至关重要。HPC
在头节点上,该脚本安装了 Prometheus 的 Slurm 导出器和 Prometheus 开源软件。
请注意,生命周期脚本旨在将所有导出器包安装为 docker 容器,因此 Docker 包也应安装在头节点和计算节点上。这些组件的脚本可以方便地在 Awsome Distributed Training GitHub 存储库的utils
成功设置安装了导出器包的 HyperPod 集群后,请继续阅读下一个主题,完成针对 Prometheus 和 Amazon Managed Grafana 的亚马逊托管服务的设置。