在 HyperPod 集群上安装指标导出器包

在基本配置中，该 SageMaker HyperPod 团队提供的生命周期脚本还包括安装各种指标导出器包。要激活安装步骤，只需在 config.py 文件中设置参数 enable_observability=True。生命周期脚本旨在使用以下开源指标导出程序包启动集群。

名称	脚本部署目标节点	导出程序描述
Prometheus 的 Slurm 导出程序	主节点（控制器）	导出 Slurm 会计指标。
弹性结构适配器 (EFA) 节点导出器	计算节点	从集群节点导出指标，以及EFA。该软件包是 Prometheus 节点导出程序的分叉。
NVIDIA数据中心GPU管理 (DCGM) 导出器	计算节点	导出有关运行状况和性能的NVIDIADCGM指标NVIDIAGPUs。

通过 config.py 文件中的 enable_observability=True，以下安装步骤将在 lifecycle_script.py 脚本中激活。


# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()

在计算节点上，该脚本安装NVIDIA数据中心GPU管理 (DCGM) 导出器和弹性结构适配器 (EFA) 节点导出器。DCGM导出器是 Prometheus 的导出器，它NVIDIAGPUs从中收集指标，从而可以监控使用情况、性能GPU和运行状况。另一方面，EFA节点导出器收集与EFA网络接口相关的指标，这对于集群中的低延迟和高带宽通信至关重要。HPC

在主节点上，脚本会安装 Prometheus 的 Slurm 导出程序和 Prometheus 开放源代码软件。Slurm 导出程序可为 Prometheus 提供与 Slurm 作业、分区和节点状态相关的指标。

请注意，生命周期脚本旨在将所有出口程序包安装为 docker 容器，因此主节点和计算节点上也应安装 Docker 软件包。这些组件的脚本可以方便地在 Awsome Distributed Training GitHub 存储库的utils文件夹中提供。

成功设置安装了导出器包的 HyperPod 集群后，请继续阅读下一个主题，完成针对 Prometheus 和 Amazon Managed Grafana 的亚马逊托管服务的设置。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

满足先决条件

验证 Prometheus 设置