As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Referência de métricas exportadas
As seções a seguir apresentam listas abrangentes de métricas exportadas do SageMaker HyperPod Amazon Managed Service for Prometheus após a configuração bem-sucedida da pilha para observabilidade. AWS CloudFormation SageMaker HyperPod Você pode começar a monitorar essas métricas visualizadas nos painéis do Amazon Managed Grafana.
Painel do exportador Slurm
Fornece informações visualizadas dos clusters do Slurm em. SageMaker HyperPod
Tipos de métricas
-
Visão geral do cluster: exibindo o número total de nós, trabalhos e seus estados.
-
Métricas de trabalho: visualização de contagens e estados de trabalhos ao longo do tempo.
-
Métricas do nó: mostrando os estados dos nós, a alocação e os recursos disponíveis.
-
Métricas de partição: monitoramento de métricas específicas da partiçãoCPU, como memória e utilização. GPU
-
Eficiência do trabalho: cálculo da eficiência do trabalho com base nos recursos utilizados.
Lista de métricas
Nome da métrica | Descrição |
---|---|
slurm_job_count |
Número total de trabalhos no cluster Slurm |
slurm_job_state_count |
Contagem de trabalhos em cada estado (por exemplo, em execução, pendentes, concluídos) |
slurm_node_count
|
Número total de nós no cluster Slurm |
slurm_node_state_count
|
Contagem de nós em cada estado (por exemplo, inativo, alocação, mistura) |
slurm_partition_node_count
|
Contagem de nós em cada partição |
slurm_partition_job_count
|
Contagem de trabalhos em cada partição |
slurm_partition_alloc_cpus
|
Número total de alocados CPUs em cada partição |
slurm_partition_free_cpus
|
Número total de disponíveis CPUs em cada partição |
slurm_partition_alloc_memory
|
Memória total alocada em cada partição |
slurm_partition_free_memory
|
Memória total disponível em cada partição |
slurm_partition_alloc_gpus
|
Total alocado GPUs em cada partição |
slurm_partition_free_gpus
|
Total disponível GPUs em cada partição |
Painel do exportador de nós
Fornece informações visualizadas das métricas do sistema coletadas pelo exportador de nós do Prometheus a partir dos nós do cluster
Tipos de métricas
-
Visão geral do sistema: exibindo médias de CPU carga e uso de memória.
-
Métricas de memória: visualização da utilização da memória, incluindo memória total, memória livre e espaço de troca.
-
Uso do disco: monitoramento da utilização e disponibilidade do espaço em disco.
-
Tráfego de rede: mostrando bytes de rede recebidos e transmitidos ao longo do tempo.
-
Métricas do sistema de arquivos: análise do uso e da disponibilidade do sistema de arquivos.
-
Métricas de E/S de disco: visualização da atividade de leitura e gravação do disco.
Lista de métricas
Para obter uma lista completa das métricas exportadas, consulte os repositórios Node Exporter e procfs
Nome da métrica | Descrição |
---|---|
node_load1
|
Carga média de 1 minuto |
node_load5
|
Média de carga de 5 minutos |
node_load15
|
Carga média de 15 minutos |
node_memory_MemTotal
|
Memória total do sistema |
node_memory_MemFree
|
Memória livre do sistema |
node_memory_MemAvailable
|
Memória disponível para alocação em processos |
node_memory_Buffers
|
Memória usada pelo kernel para armazenamento em buffer |
node_memory_Cached
|
Memória usada pelo kernel para armazenar dados do sistema de arquivos |
node_memory_SwapTotal
|
Espaço total de troca disponível |
node_memory_SwapFree
|
Espaço de swap gratuito |
node_memory_SwapCached
|
A memória que uma vez foi trocada, é trocada de volta, mas ainda está sendo trocada |
node_filesystem_avail_bytes
|
Espaço em disco disponível em bytes |
node_filesystem_size_bytes
|
Espaço total em disco em bytes |
node_filesystem_free_bytes
|
Espaço livre em disco em bytes |
node_network_receive_bytes
|
Bytes de rede recebidos |
node_network_transmit_bytes
|
Bytes de rede transmitidos |
node_disk_read_bytes
|
Bytes de disco lidos |
node_disk_written_bytes
|
Bytes de disco gravados |
NVIDIADCGMpainel do exportador
Fornece informações visualizadas das NVIDIA GPU métricas coletadas pelo NVIDIADCGMexportador
Tipos de métricas
-
GPUVisão geral: exibindo GPU a utilização, as temperaturas, o uso de energia e o uso da memória.
-
Métricas de temperatura: visualização de GPU temperaturas ao longo do tempo.
-
Uso de energia: Monitorando o consumo GPU de energia e as tendências de uso de energia.
-
Utilização da memória: análise do uso da GPU memória, incluindo memória usada, livre e total.
-
Velocidade do ventilador: mostrando as velocidades e variações do GPU ventilador.
-
ECCErros: Rastreando ECC erros de GPU memória e erros pendentes.
Lista de métricas
A tabela a seguir mostra uma lista das métricas que fornecem informações sobre a NVIDIA GPU integridade e o desempenho, incluindo frequências de relógio, temperaturas, uso de energia, utilização de memória, velocidades do ventilador e métricas de erro.
Nome da métrica | Descrição |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
Frequência do relógio SM (inMHz) |
DCGM_FI_DEV_MEM_CLOCK
|
Frequência do relógio de memória (inMHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
Temperatura da memória (em C) |
DCGM_FI_DEV_GPU_TEMP
|
GPUtemperatura (em C) |
DCGM_FI_DEV_POWER_USAGE
|
Consumo de energia (em W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
Consumo total de energia desde a inicialização (em mJ) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
Número total de novas PCIe tentativas |
DCGM_FI_DEV_MEM_COPY_UTIL
|
Utilização da memória (em%) |
DCGM_FI_DEV_ENC_UTIL
|
Utilização do codificador (em%) |
DCGM_FI_DEV_DEC_UTIL
|
Utilização do decodificador (em%) |
DCGM_FI_DEV_XID_ERRORS
|
Valor do último XID erro encontrado |
DCGM_FI_DEV_FB_FREE
|
Buffer de quadro livre de memória (em MiB) |
DCGM_FI_DEV_FB_USED
|
Memória de buffer de quadros usada (em MiB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
Número total de contadores de NVLink largura de banda para todas as faixas |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
v Status GPU da licença |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
Número de linhas remapeadas para erros incorrigíveis |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
Número de linhas remapeadas para erros corrigíveis |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
Se o remapeamento das linhas falhou |
EFApainel de métricas
Fornece informações visualizadas das métricas do Amazon Elastic Fabric Adapter (EFA) equipado em instâncias P coletadas pelo exportador de EFA nós
Tipos de métricas
-
EFAmétricas de erro: visualização de erros como erros de alocação, erros de comando e erros de mapa de memória.
-
EFAtráfego de rede: monitoramento de bytes, pacotes e solicitações de trabalho recebidos e transmitidos.
-
EFARDMAdesempenho: análise de operações de RDMA leitura e gravação, incluindo bytes transferidos e taxas de erro.
-
EFAvida útil da porta: exibindo a vida útil das portas ao longo do EFA tempo.
-
EFApacotes keep-alive: rastreando o número de pacotes keep-alive recebidos.
Lista de métricas
A tabela a seguir mostra uma lista das métricas que fornece informações sobre vários aspectos da EFA operação, incluindo erros, comandos concluídos, tráfego de rede e utilização de recursos.
Nome da métrica | Descrição |
---|---|
node_amazonefa_info
|
Dados não numéricos de /sys/class/infiniband/, o valor é sempre 1. |
node_amazonefa_lifespan
|
Vida útil do porto |
node_amazonefa_rdma_read_bytes
|
Número de bytes lidos com RDMA |
node_amazonefa_rdma_read_resp_bytes
|
Número de bytes de resposta de leitura com RDMA |
node_amazonefa_rdma_read_wr_err
|
Número de erros de leitura e gravação com RDMA |
node_amazonefa_rdma_read_wrs
|
Número de rs lidos com RDMA |
node_amazonefa_rdma_write_bytes
|
Número de bytes gravados com RDMA |
node_amazonefa_rdma_write_recv_bytes
|
Número de bytes gravados e recebidos com RDMA |
node_amazonefa_rdma_write_wr_err
|
Número de bytes gravados com erro RDMA |
node_amazonefa_rdma_write_wrs
|
Número de bytes gravados wrs RDMA |
node_amazonefa_recv_bytes
|
Número de bytes recebidos |
node_amazonefa_recv_wrs
|
Número de bytes recebidos wrs |
node_amazonefa_rx_bytes
|
Número de bytes recebidos |
node_amazonefa_rx_drops
|
Número de pacotes descartados |
node_amazonefa_rx_pkts
|
Número de pacotes recebidos |
node_amazonefa_send_bytes
|
Número de bytes enviados |
node_amazonefa_send_wrs
|
Número de guerras enviadas |
node_amazonefa_tx_bytes
|
Número de bytes transmitidos |
node_amazonefa_tx_pkts
|
Número de pacotes transmitidos |
FSxpara o painel de métricas do Lustre
Fornece informações visualizadas das métricas do sistema de arquivos Amazon FSx for Lustre coletadas pela Amazon. CloudWatch
nota
O painel Grafana FSx for Lustre utiliza a Amazon CloudWatch como fonte de dados, o que difere dos outros painéis que você configurou para usar o Amazon Managed Service for Prometheus. Para garantir o monitoramento e a visualização precisos das métricas relacionadas ao seu sistema de arquivos FSx for Lustre, configure o painel for Lustre FSx para usar a Amazon CloudWatch como fonte de dados, especificando a mesma Região da AWS onde seu sistema de arquivos FSx for Lustre está implantado.
Tipos de métricas
-
DataReadBytes: o número de bytes para operações de leitura do sistema de arquivos.
-
DataWriteBytes: o número de bytes para operações de gravação do sistema de arquivos.
-
DataReadOperations: o número de operações de leitura.
-
DataWriteOperations: o número de operações de gravação.
-
MetadataOperations: o número de operações de metadados.
-
FreeDataStorageCapacity: a quantidade de capacidade de armazenamento disponível.