Instale paquetes de exportación de métricas en su clúster HyperPod

En la configuración básica, los scripts del ciclo de vida que proporciona el SageMaker HyperPod equipo también incluyen la instalación de varios paquetes de exportación de métricas. Para activar el paso de instalación, lo único que debe hacer es configurar el parámetro enable_observability=True en el config.pyarchivo. Los scripts del ciclo de vida están diseñados para arrancar el clúster con los siguientes paquetes de exportación de métricas de código abierto.

Nombre	Nodo de destino del despliegue del script	Descripción del exportador
Exportador de slurm para Prometheus	Nodo principal (controlador)	Exporta las métricas de Slurm Accounting.
Exportador de nodos Elastic Fabric Adapter (EFA)	Nodo informático	Exporta métricas de los nodos del clúster yEFA. El paquete es una bifurcación del exportador de nodos Prometheus.
NVIDIAExportador de GPU gestión de centros de datos () DCGM	Nodo informático	Exporta NVIDIA DCGM métricas sobre el estado y el rendimiento de NVIDIAGPUs.

Con enable_observability=True el config.pyarchivo, se activa el siguiente paso de instalación en el lifecycle_script.pyscript.


# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()

En los nodos de cómputo, el script instala el exportador de NVIDIA Data Center GPU Management (DCGM) y el exportador de nodos Elastic Fabric Adapter (EFA). El DCGM exportador es un exportador de Prometheus que recopila métricas y permite monitorear el GPU uso NVIDIAGPUs, el rendimiento y el estado. El exportador de EFA nodos, por otro lado, recopila métricas relacionadas con la interfaz de EFA red, que es esencial para la comunicación de baja latencia y gran ancho de banda en los clústeres. HPC

En el nodo principal, el script instala el exportador Slurm para Prometheus y el software de código abierto Prometheus. El exportador de Slurm proporciona a Prometheus métricas relacionadas con las tareas, las particiones y los estados de los nodos de Slurm.

Tenga en cuenta que los scripts del ciclo de vida están diseñados para instalar todos los paquetes de exportación como contenedores docker, por lo que el paquete Docker también debe instalarse tanto en el nodo principal como en el de procesamiento. Los scripts de estos componentes se encuentran cómodamente en la utilscarpeta del repositorio Awsome Distributed Training. GitHub

Una vez que haya configurado correctamente el HyperPod clúster instalado con los paquetes de exportación, continúe con el tema siguiente para terminar de configurar Amazon Managed Service para Prometheus y Amazon Managed Grafana.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Completar los requisitos previos

Valida la configuración de Prometheus