Instale paquetes de exportación de métricas en su clúster HyperPod - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Instale paquetes de exportación de métricas en su clúster HyperPod

En la configuración básica, los scripts del ciclo de vida que proporciona el SageMaker HyperPod equipo también incluyen la instalación de varios paquetes de exportación de métricas. Para activar el paso de instalación, lo único que debe hacer es configurar el parámetro enable_observability=True en el config.pyarchivo. Los scripts del ciclo de vida están diseñados para arrancar el clúster con los siguientes paquetes de exportación de métricas de código abierto.

Nombre Nodo de destino del despliegue del script Descripción del exportador
Exportador de slurm para Prometheus Nodo principal (controlador)

Exporta las métricas de Slurm Accounting.

Exportador de nodos Elastic Fabric Adapter (EFA)

Nodo informático

Exporta métricas de los nodos del clúster yEFA. El paquete es una bifurcación del exportador de nodos Prometheus.

NVIDIAExportador de GPU gestión de centros de datos () DCGM

Nodo informático

Exporta NVIDIA DCGM métricas sobre el estado y el rendimiento de NVIDIAGPUs.

Con enable_observability=True el config.pyarchivo, se activa el siguiente paso de instalación en el lifecycle_script.pyscript.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

En los nodos de cómputo, el script instala el exportador de NVIDIA Data Center GPU Management (DCGM) y el exportador de nodos Elastic Fabric Adapter (EFA). El DCGM exportador es un exportador de Prometheus que recopila métricas y permite monitorear el GPU uso NVIDIAGPUs, el rendimiento y el estado. El exportador de EFA nodos, por otro lado, recopila métricas relacionadas con la interfaz de EFA red, que es esencial para la comunicación de baja latencia y gran ancho de banda en los clústeres. HPC

En el nodo principal, el script instala el exportador Slurm para Prometheus y el software de código abierto Prometheus. El exportador de Slurm proporciona a Prometheus métricas relacionadas con las tareas, las particiones y los estados de los nodos de Slurm.

Tenga en cuenta que los scripts del ciclo de vida están diseñados para instalar todos los paquetes de exportación como contenedores docker, por lo que el paquete Docker también debe instalarse tanto en el nodo principal como en el de procesamiento. Los scripts de estos componentes se encuentran cómodamente en la utilscarpeta del repositorio Awsome Distributed Training. GitHub

Una vez que haya configurado correctamente el HyperPod clúster instalado con los paquetes de exportación, continúe con el tema siguiente para terminar de configurar Amazon Managed Service para Prometheus y Amazon Managed Grafana.