Instale pacotes de exportação de métricas em seu cluster HyperPod - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Instale pacotes de exportação de métricas em seu cluster HyperPod

Na configuração básica, os scripts de ciclo de vida fornecidos pela SageMaker HyperPod equipe também incluem a instalação de vários pacotes de exportadores de métricas. Para ativar a etapa de instalação, a única coisa que você precisa fazer é definir o parâmetro enable_observability=True no config.pyarquivo. Os scripts de ciclo de vida foram projetados para inicializar seu cluster com os seguintes pacotes de exportação de métricas de código aberto.

Nome Nó de destino da implantação do script Descrição do exportador
Exportador de slurm para Prometheus Nó principal (controlador)

Exporta métricas do Slurm Accounting.

Adaptador de tecido elástico (EFA) exportador de nós

Nó de computação

Exporta métricas dos nós do cluster EFA e. O pacote é uma bifurcação do exportador de nós Prometheus.

NVIDIAExportador GPU de gerenciamento de data center (DCGM)

Nó de computação

Exporta NVIDIA DCGM métricas sobre saúde e desempenho de NVIDIAGPUs.

enable_observability=TrueDentro do config.pyarquivo, a etapa de instalação a seguir é ativada no lifecycle_script.pyscript.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

Nos nós de computação, o script instala o exportador NVIDIA Data Center GPU Management (DCGM) e o exportador de nós Elastic Fabric Adapter (EFA). O DCGM exportador é um exportador da Prometheus que coleta métricas de, permitindo o monitoramento NVIDIA GPUs do uso, desempenho e integridade. GPU O exportador de EFA nós, por outro lado, reúne métricas relacionadas à interface de EFA rede, que é essencial para comunicação de baixa latência e alta largura de banda em clusters. HPC

No nó principal, o script instala o exportador Slurm para o Prometheus e o software de código aberto Prometheus. O exportador Slurm fornece ao Prometheus métricas relacionadas a trabalhos, partições e estados de nós do Slurm.

Observe que os scripts de ciclo de vida são projetados para instalar todos os pacotes do exportador como contêineres docker, portanto, o pacote Docker também deve ser instalado nos nós principal e de computação. Os scripts desses componentes são fornecidos convenientemente na utilspasta do repositório do Awsome Distributed Training GitHub .

Depois de configurar com sucesso seu HyperPod cluster instalado com os pacotes do exportador, vá para o próximo tópico para concluir a configuração do Amazon Managed Service para Prometheus e Amazon Managed Grafana.