Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Instale paquetes de exportación de métricas en su clúster HyperPod
En la configuración básica, los scripts del ciclo de vida que proporciona el SageMaker HyperPod equipo también incluyen la instalación de varios paquetes de exportación de métricas. Para activar el paso de instalación, lo único que debe hacer es configurar el parámetro enable_observability=True
en el config.py
Nombre | Nodo de destino del despliegue del script | Descripción del exportador |
Exportador de slurm para Prometheus |
Nodo principal (controlador) |
Exporta las métricas de Slurm Accounting. |
Nodo informático |
Exporta métricas de los nodos del clúster yEFA. El paquete es una bifurcación del exportador de nodos Prometheus |
|
Nodo informático |
Exporta NVIDIA DCGM métricas sobre el estado y el rendimiento de NVIDIAGPUs. |
Con enable_observability=True
el config.py
lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
En los nodos de cómputo, el script instala el exportador de NVIDIA Data Center GPU Management (DCGM) y el exportador de nodos Elastic Fabric Adapter (EFA). El DCGM exportador es un exportador de Prometheus que recopila métricas y permite monitorear el GPU uso NVIDIAGPUs, el rendimiento y el estado. El exportador de EFA nodos, por otro lado, recopila métricas relacionadas con la interfaz de EFA red, que es esencial para la comunicación de baja latencia y gran ancho de banda en los clústeres. HPC
En el nodo principal, el script instala el exportador Slurm para Prometheus y el software de código abierto Prometheus.
Tenga en cuenta que los scripts del ciclo de vida están diseñados para instalar todos los paquetes de exportación como contenedores docker, por lo que el paquete Docker también debe instalarse tanto en el nodo principal como en el de procesamiento. Los scripts de estos componentes se encuentran cómodamente en la utils
Una vez que haya configurado correctamente el HyperPod clúster instalado con los paquetes de exportación, continúe con el tema siguiente para terminar de configurar Amazon Managed Service para Prometheus y Amazon Managed Grafana.