As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Instale pacotes de exportação de métricas em seu cluster HyperPod
Na configuração básica, os scripts de ciclo de vida fornecidos pela SageMaker HyperPod equipe também incluem a instalação de vários pacotes de exportadores de métricas. Para ativar a etapa de instalação, a única coisa que você precisa fazer é definir o parâmetro enable_observability=True
no config.py
Nome | Nó de destino da implantação do script | Descrição do exportador |
Exportador de slurm para Prometheus |
Nó principal (controlador) |
Exporta métricas do Slurm Accounting. |
Nó de computação |
Exporta métricas dos nós do cluster EFA e. O pacote é uma bifurcação do exportador de nós Prometheus |
|
Nó de computação |
Exporta NVIDIA DCGM métricas sobre saúde e desempenho de NVIDIAGPUs. |
enable_observability=True
Dentro do config.py
lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
Nos nós de computação, o script instala o exportador NVIDIA Data Center GPU Management (DCGM) e o exportador de nós Elastic Fabric Adapter (EFA). O DCGM exportador é um exportador da Prometheus que coleta métricas de, permitindo o monitoramento NVIDIA GPUs do uso, desempenho e integridade. GPU O exportador de EFA nós, por outro lado, reúne métricas relacionadas à interface de EFA rede, que é essencial para comunicação de baixa latência e alta largura de banda em clusters. HPC
No nó principal, o script instala o exportador Slurm para o Prometheus e o software de código aberto Prometheus.
Observe que os scripts de ciclo de vida são projetados para instalar todos os pacotes do exportador como contêineres docker, portanto, o pacote Docker também deve ser instalado nos nós principal e de computação. Os scripts desses componentes são fornecidos convenientemente na utils
Depois de configurar com sucesso seu HyperPod cluster instalado com os pacotes do exportador, vá para o próximo tópico para concluir a configuração do Amazon Managed Service para Prometheus e Amazon Managed Grafana.