Painel do exportador Slurm Painel do exportador de nós NVIDIADCGMpainel do exportador EFApainel de métricas FSxpara o painel de métricas do Lustre

Referência de métricas exportadas

As seções a seguir apresentam listas abrangentes de métricas exportadas do SageMaker HyperPod Amazon Managed Service for Prometheus após a configuração bem-sucedida da pilha para observabilidade. AWS CloudFormation SageMaker HyperPod Você pode começar a monitorar essas métricas visualizadas nos painéis do Amazon Managed Grafana.

Painel do exportador Slurm

Fornece informações visualizadas dos clusters do Slurm em. SageMaker HyperPod

Tipos de métricas

Visão geral do cluster: exibindo o número total de nós, trabalhos e seus estados.
Métricas de trabalho: visualização de contagens e estados de trabalhos ao longo do tempo.
Métricas do nó: mostrando os estados dos nós, a alocação e os recursos disponíveis.
Métricas de partição: monitoramento de métricas específicas da partiçãoCPU, como memória e utilização. GPU
Eficiência do trabalho: cálculo da eficiência do trabalho com base nos recursos utilizados.

Lista de métricas

Nome da métrica	Descrição
`slurm_job_count`	Número total de trabalhos no cluster Slurm
`slurm_job_state_count`	Contagem de trabalhos em cada estado (por exemplo, em execução, pendentes, concluídos)
`slurm_node_count`	Número total de nós no cluster Slurm
`slurm_node_state_count`	Contagem de nós em cada estado (por exemplo, inativo, alocação, mistura)
`slurm_partition_node_count`	Contagem de nós em cada partição
`slurm_partition_job_count`	Contagem de trabalhos em cada partição
`slurm_partition_alloc_cpus`	Número total de alocados CPUs em cada partição
`slurm_partition_free_cpus`	Número total de disponíveis CPUs em cada partição
`slurm_partition_alloc_memory`	Memória total alocada em cada partição
`slurm_partition_free_memory`	Memória total disponível em cada partição
`slurm_partition_alloc_gpus`	Total alocado GPUs em cada partição
`slurm_partition_free_gpus`	Total disponível GPUs em cada partição

Painel do exportador de nós

Fornece informações visualizadas das métricas do sistema coletadas pelo exportador de nós do Prometheus a partir dos nós do cluster. HyperPod

Tipos de métricas

Visão geral do sistema: exibindo médias de CPU carga e uso de memória.
Métricas de memória: visualização da utilização da memória, incluindo memória total, memória livre e espaço de troca.
Uso do disco: monitoramento da utilização e disponibilidade do espaço em disco.
Tráfego de rede: mostrando bytes de rede recebidos e transmitidos ao longo do tempo.
Métricas do sistema de arquivos: análise do uso e da disponibilidade do sistema de arquivos.
Métricas de E/S de disco: visualização da atividade de leitura e gravação do disco.

Lista de métricas

Para obter uma lista completa das métricas exportadas, consulte os repositórios Node Exporter e procfs. GitHub A tabela a seguir mostra um subconjunto das métricas que fornece informações sobre a utilização de recursos do sistema, como CPU carga, uso de memória, espaço em disco e atividade de rede.

Nome da métrica	Descrição
`node_load1`	Carga média de 1 minuto
`node_load5`	Média de carga de 5 minutos
`node_load15`	Carga média de 15 minutos
`node_memory_MemTotal`	Memória total do sistema
`node_memory_MemFree`	Memória livre do sistema
`node_memory_MemAvailable`	Memória disponível para alocação em processos
`node_memory_Buffers`	Memória usada pelo kernel para armazenamento em buffer
`node_memory_Cached`	Memória usada pelo kernel para armazenar dados do sistema de arquivos
`node_memory_SwapTotal`	Espaço total de troca disponível
`node_memory_SwapFree`	Espaço de swap gratuito
`node_memory_SwapCached`	A memória que uma vez foi trocada, é trocada de volta, mas ainda está sendo trocada
`node_filesystem_avail_bytes`	Espaço em disco disponível em bytes
`node_filesystem_size_bytes`	Espaço total em disco em bytes
`node_filesystem_free_bytes`	Espaço livre em disco em bytes
`node_network_receive_bytes`	Bytes de rede recebidos
`node_network_transmit_bytes`	Bytes de rede transmitidos
`node_disk_read_bytes`	Bytes de disco lidos
`node_disk_written_bytes`	Bytes de disco gravados

NVIDIADCGMpainel do exportador

Fornece informações visualizadas das NVIDIA GPU métricas coletadas pelo NVIDIADCGMexportador.

Tipos de métricas

GPUVisão geral: exibindo GPU a utilização, as temperaturas, o uso de energia e o uso da memória.
Métricas de temperatura: visualização de GPU temperaturas ao longo do tempo.
Uso de energia: Monitorando o consumo GPU de energia e as tendências de uso de energia.
Utilização da memória: análise do uso da GPU memória, incluindo memória usada, livre e total.
Velocidade do ventilador: mostrando as velocidades e variações do GPU ventilador.
ECCErros: Rastreando ECC erros de GPU memória e erros pendentes.

Lista de métricas

A tabela a seguir mostra uma lista das métricas que fornecem informações sobre a NVIDIA GPU integridade e o desempenho, incluindo frequências de relógio, temperaturas, uso de energia, utilização de memória, velocidades do ventilador e métricas de erro.

Nome da métrica	Descrição
`DCGM_FI_DEV_SM_CLOCK`	Frequência do relógio SM (inMHz)
`DCGM_FI_DEV_MEM_CLOCK`	Frequência do relógio de memória (inMHz)
`DCGM_FI_DEV_MEMORY_TEMP`	Temperatura da memória (em C)
`DCGM_FI_DEV_GPU_TEMP`	GPUtemperatura (em C)
`DCGM_FI_DEV_POWER_USAGE`	Consumo de energia (em W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	Consumo total de energia desde a inicialização (em mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	Número total de novas PCIe tentativas
`DCGM_FI_DEV_MEM_COPY_UTIL`	Utilização da memória (em%)
`DCGM_FI_DEV_ENC_UTIL`	Utilização do codificador (em%)
`DCGM_FI_DEV_DEC_UTIL`	Utilização do decodificador (em%)
`DCGM_FI_DEV_XID_ERRORS`	Valor do último XID erro encontrado
`DCGM_FI_DEV_FB_FREE`	Buffer de quadro livre de memória (em MiB)
`DCGM_FI_DEV_FB_USED`	Memória de buffer de quadros usada (em MiB)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	Número total de contadores de NVLink largura de banda para todas as faixas
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	v Status GPU da licença
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	Número de linhas remapeadas para erros incorrigíveis
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	Número de linhas remapeadas para erros corrigíveis
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	Se o remapeamento das linhas falhou

EFApainel de métricas

Fornece informações visualizadas das métricas do Amazon Elastic Fabric Adapter (EFA) equipado em instâncias P coletadas pelo exportador de EFA nós.

Tipos de métricas

EFAmétricas de erro: visualização de erros como erros de alocação, erros de comando e erros de mapa de memória.
EFAtráfego de rede: monitoramento de bytes, pacotes e solicitações de trabalho recebidos e transmitidos.
EFARDMAdesempenho: análise de operações de RDMA leitura e gravação, incluindo bytes transferidos e taxas de erro.
EFAvida útil da porta: exibindo a vida útil das portas ao longo do EFA tempo.
EFApacotes keep-alive: rastreando o número de pacotes keep-alive recebidos.

Lista de métricas

A tabela a seguir mostra uma lista das métricas que fornece informações sobre vários aspectos da EFA operação, incluindo erros, comandos concluídos, tráfego de rede e utilização de recursos.

Nome da métrica	Descrição
`node_amazonefa_info`	Dados não numéricos de /sys/class/infiniband/, o valor é sempre 1.
`node_amazonefa_lifespan`	Vida útil do porto
`node_amazonefa_rdma_read_bytes`	Número de bytes lidos com RDMA
`node_amazonefa_rdma_read_resp_bytes`	Número de bytes de resposta de leitura com RDMA
`node_amazonefa_rdma_read_wr_err`	Número de erros de leitura e gravação com RDMA
`node_amazonefa_rdma_read_wrs`	Número de rs lidos com RDMA
`node_amazonefa_rdma_write_bytes`	Número de bytes gravados com RDMA
`node_amazonefa_rdma_write_recv_bytes`	Número de bytes gravados e recebidos com RDMA
`node_amazonefa_rdma_write_wr_err`	Número de bytes gravados com erro RDMA
`node_amazonefa_rdma_write_wrs`	Número de bytes gravados wrs RDMA
`node_amazonefa_recv_bytes`	Número de bytes recebidos
`node_amazonefa_recv_wrs`	Número de bytes recebidos wrs
`node_amazonefa_rx_bytes`	Número de bytes recebidos
`node_amazonefa_rx_drops`	Número de pacotes descartados
`node_amazonefa_rx_pkts`	Número de pacotes recebidos
`node_amazonefa_send_bytes`	Número de bytes enviados
`node_amazonefa_send_wrs`	Número de guerras enviadas
`node_amazonefa_tx_bytes`	Número de bytes transmitidos
`node_amazonefa_tx_pkts`	Número de pacotes transmitidos

FSxpara o painel de métricas do Lustre

Fornece informações visualizadas das métricas do sistema de arquivos Amazon FSx for Lustre coletadas pela Amazon. CloudWatch

nota

O painel Grafana FSx for Lustre utiliza a Amazon CloudWatch como fonte de dados, o que difere dos outros painéis que você configurou para usar o Amazon Managed Service for Prometheus. Para garantir o monitoramento e a visualização precisos das métricas relacionadas ao seu sistema de arquivos FSx for Lustre, configure o painel for Lustre FSx para usar a Amazon CloudWatch como fonte de dados, especificando a mesma Região da AWS onde seu sistema de arquivos FSx for Lustre está implantado.

Tipos de métricas

DataReadBytes: o número de bytes para operações de leitura do sistema de arquivos.
DataWriteBytes: o número de bytes para operações de gravação do sistema de arquivos.
DataReadOperations: o número de operações de leitura.
DataWriteOperations: o número de operações de gravação.
MetadataOperations: o número de operações de metadados.
FreeDataStorageCapacity: a quantidade de capacidade de armazenamento disponível.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Configurar um espaço de trabalho Amazon Managed Grafana

Resiliência do cluster