Referência de métricas exportadas - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Referência de métricas exportadas

As seções a seguir apresentam listas abrangentes de métricas exportadas do SageMaker HyperPod Amazon Managed Service for Prometheus após a configuração bem-sucedida do AWS CloudFormation pilha para SageMaker HyperPod observabilidade. Você pode começar a monitorar essas métricas visualizadas nos painéis do Amazon Managed Grafana.

Painel do exportador Slurm

Fornece informações visualizadas dos clusters do Slurm em. SageMaker HyperPod

Tipos de métricas

  • Visão geral do cluster: exibindo o número total de nós, trabalhos e seus estados.

  • Métricas de trabalho: visualização de contagens e estados de trabalhos ao longo do tempo.

  • Métricas do nó: mostrando os estados dos nós, a alocação e os recursos disponíveis.

  • Métricas de partição: monitoramento de métricas específicas da partiçãoCPU, como memória e utilização. GPU

  • Eficiência do trabalho: cálculo da eficiência do trabalho com base nos recursos utilizados.

Lista de métricas

Nome da métrica Descrição
slurm_job_count Número total de trabalhos no cluster Slurm
slurm_job_state_count Contagem de trabalhos em cada estado (por exemplo, em execução, pendentes, concluídos)
slurm_node_count Número total de nós no cluster Slurm
slurm_node_state_count Contagem de nós em cada estado (por exemplo, inativo, alocação, mistura)
slurm_partition_node_count Contagem de nós em cada partição
slurm_partition_job_count Contagem de trabalhos em cada partição
slurm_partition_alloc_cpus Número total de alocados CPUs em cada partição
slurm_partition_free_cpus Número total de disponíveis CPUs em cada partição
slurm_partition_alloc_memory Memória total alocada em cada partição
slurm_partition_free_memory Memória total disponível em cada partição
slurm_partition_alloc_gpus Total alocado GPUs em cada partição
slurm_partition_free_gpus Total disponível GPUs em cada partição

Painel do exportador de nós

Fornece informações visualizadas das métricas do sistema coletadas pelo exportador de nós do Prometheus a partir dos nós do cluster. HyperPod

Tipos de métricas

  • Visão geral do sistema: exibindo médias de CPU carga e uso de memória.

  • Métricas de memória: visualização da utilização da memória, incluindo memória total, memória livre e espaço de troca.

  • Uso do disco: monitoramento da utilização e disponibilidade do espaço em disco.

  • Tráfego de rede: mostrando bytes de rede recebidos e transmitidos ao longo do tempo.

  • Métricas do sistema de arquivos: análise do uso e da disponibilidade do sistema de arquivos.

  • Métricas de E/S de disco: visualização da atividade de leitura e gravação do disco.

Lista de métricas

Para obter uma lista completa das métricas exportadas, consulte os repositórios Node Exporter e procfs. GitHub A tabela a seguir mostra um subconjunto das métricas que fornece informações sobre a utilização de recursos do sistema, como CPU carga, uso de memória, espaço em disco e atividade de rede.

Nome da métrica Descrição
node_load1 Carga média de 1 minuto
node_load5 Média de carga de 5 minutos
node_load15 Carga média de 15 minutos
node_memory_MemTotal Memória total do sistema
node_memory_MemFree Memória livre do sistema
node_memory_MemAvailable Memória disponível para alocação em processos
node_memory_Buffers Memória usada pelo kernel para armazenamento em buffer
node_memory_Cached Memória usada pelo kernel para armazenar dados do sistema de arquivos
node_memory_SwapTotal Espaço total de troca disponível
node_memory_SwapFree Espaço de swap gratuito
node_memory_SwapCached A memória que uma vez foi trocada, é trocada de volta, mas ainda está sendo trocada
node_filesystem_avail_bytes Espaço em disco disponível em bytes
node_filesystem_size_bytes Espaço total em disco em bytes
node_filesystem_free_bytes Espaço livre em disco em bytes
node_network_receive_bytes Bytes de rede recebidos
node_network_transmit_bytes Bytes de rede transmitidos
node_disk_read_bytes Bytes de disco lidos
node_disk_written_bytes Bytes de disco gravados

NVIDIADCGMpainel do exportador

Fornece informações visualizadas das NVIDIA GPU métricas coletadas pelo NVIDIADCGMexportador.

Tipos de métricas

  • GPUVisão geral: exibindo GPU a utilização, as temperaturas, o uso de energia e o uso da memória.

  • Métricas de temperatura: visualização de GPU temperaturas ao longo do tempo.

  • Uso de energia: monitoramento das GPU tendências de consumo e uso de energia.

  • Utilização da memória: análise do uso da GPU memória, incluindo memória usada, livre e total.

  • Velocidade do ventilador: mostrando as velocidades e variações do GPU ventilador.

  • ECCErros: rastreamento de ECC erros de GPU memória e erros pendentes.

Lista de métricas

A tabela a seguir mostra uma lista das métricas que fornecem informações sobre a NVIDIA GPU integridade e o desempenho, incluindo frequências de relógio, temperaturas, uso de energia, utilização de memória, velocidades do ventilador e métricas de erro.

Nome da métrica Descrição
DCGM_FI_DEV_SM_CLOCK Frequência do relógio SM (inMHz)
DCGM_FI_DEV_MEM_CLOCK Frequência do relógio de memória (inMHz)
DCGM_FI_DEV_MEMORY_TEMP Temperatura da memória (em C)
DCGM_FI_DEV_GPU_TEMP GPUtemperatura (em C)
DCGM_FI_DEV_POWER_USAGE Consumo de energia (em W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Consumo total de energia desde a inicialização (em mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER Número total de novas PCIe tentativas
DCGM_FI_DEV_MEM_COPY_UTIL Utilização da memória (em%)
DCGM_FI_DEV_ENC_UTIL Utilização do codificador (em%)
DCGM_FI_DEV_DEC_UTIL Utilização do decodificador (em%)
DCGM_FI_DEV_XID_ERRORS Valor do último XID erro encontrado
DCGM_FI_DEV_FB_FREE Buffer de quadro livre de memória (em MiB)
DCGM_FI_DEV_FB_USED Memória de buffer de quadros usada (em MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Número total de contadores de NVLink largura de banda para todas as faixas
DCGM_FI_DEV_VGPU_LICENSE_STATUS v Status GPU da licença
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Número de linhas remapeadas para erros incorrigíveis
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Número de linhas remapeadas para erros corrigíveis
DCGM_FI_DEV_ROW_REMAP_FAILURE Se o remapeamento das linhas falhou

EFApainel de métricas

Fornece informações visualizadas das métricas do Amazon Elastic Fabric Adapter (EFA) equipado em instâncias P coletadas pelo exportador de EFA nós.

Tipos de métricas

  • EFAmétricas de erro: visualização de erros como erros de alocação, erros de comando e erros de mapa de memória.

  • EFAtráfego de rede: monitoramento de bytes, pacotes e solicitações de trabalho recebidos e transmitidos.

  • EFARDMAdesempenho: análise de operações de RDMA leitura e gravação, incluindo bytes transferidos e taxas de erro.

  • EFAvida útil da porta: exibindo a vida útil das portas ao longo do EFA tempo.

  • EFApacotes keep-alive: rastreando o número de pacotes keep-alive recebidos.

Lista de métricas

A tabela a seguir mostra uma lista das métricas que fornece informações sobre vários aspectos da EFA operação, incluindo erros, comandos concluídos, tráfego de rede e utilização de recursos.

Nome da métrica Descrição
node_amazonefa_info Dados não numéricos de /sys/class/infiniband/, o valor é sempre 1.
node_amazonefa_lifespan Vida útil do porto
node_amazonefa_rdma_read_bytes Número de bytes lidos com RDMA
node_amazonefa_rdma_read_resp_bytes Número de bytes de resposta de leitura com RDMA
node_amazonefa_rdma_read_wr_err Número de erros de leitura e gravação com RDMA
node_amazonefa_rdma_read_wrs Número de rs lidos com RDMA
node_amazonefa_rdma_write_bytes Número de bytes gravados com RDMA
node_amazonefa_rdma_write_recv_bytes Número de bytes gravados e recebidos com RDMA
node_amazonefa_rdma_write_wr_err Número de bytes gravados com erro RDMA
node_amazonefa_rdma_write_wrs Número de bytes gravados wrs RDMA
node_amazonefa_recv_bytes Número de bytes recebidos
node_amazonefa_recv_wrs Número de bytes recebidos wrs
node_amazonefa_rx_bytes Número de bytes recebidos
node_amazonefa_rx_drops Número de pacotes descartados
node_amazonefa_rx_pkts Número de pacotes recebidos
node_amazonefa_send_bytes Número de bytes enviados
node_amazonefa_send_wrs Número de guerras enviadas
node_amazonefa_tx_bytes Número de bytes transmitidos
node_amazonefa_tx_pkts Número de pacotes transmitidos

FSxpara o painel de métricas do Lustre

Fornece informações visualizadas das métricas do sistema de arquivos Amazon FSx for Lustre coletadas pela Amazon. CloudWatch

nota

O painel Grafana FSx for Lustre utiliza a Amazon CloudWatch como fonte de dados, o que difere dos outros painéis que você configurou para usar o Amazon Managed Service for Prometheus. Para garantir o monitoramento e a visualização precisos das métricas relacionadas ao seu sistema de arquivos FSx for Lustre, configure o painel do for Lustre FSx para usar a Amazon CloudWatch como fonte de dados, especificando a mesma Região da AWS onde seu sistema de arquivos FSx for Lustre é implantado.

Tipos de métricas

  • DataReadBytes: o número de bytes para operações de leitura do sistema de arquivos.

  • DataWriteBytes: o número de bytes para operações de gravação do sistema de arquivos.

  • DataReadOperations: o número de operações de leitura.

  • DataWriteOperations: o número de operações de gravação.

  • MetadataOperations: o número de operações de metadados.

  • FreeDataStorageCapacity: a quantidade de capacidade de armazenamento disponível.