Métricas do Amazon EKS e do Kubernetes Container Insights - Amazon CloudWatch

Métricas do Amazon EKS e do Kubernetes Container Insights

As tabelas a seguir listam as métricas e as dimensões que o Container Insights coleta para o Amazon EKS e Kubernetes. Essas métricas estão no namespace ContainerInsights. Para ter mais informações, consulte Metrics.

Se você não vir as métricas do Container Insights no seu console, certifique-se de que você tenha concluído a configuração do Container Insights. As métricas não serão exibidas até que o Container Insights tenha sido configurado completamente. Para ter mais informações, consulte Configurar o Container Insights.

Se você estiver usando a versão 1.5.0 ou versões posteriores do complemento do Amazon EKS ou a versão 1.300035.0 do agente do CloudWatch, a maioria das métricas listadas na tabela a seguir será coletada para nós nos sistemas Linux e Windows. Consulte a coluna Nome da métrica da tabela para visualizar quais métricas não são coletadas para o Windows.

Com a versão original do Container Insights, as métricas são cobradas como métricas personalizadas. Com o Container Insights com capacidade de observabilidade aprimorada para o Amazon EKS, as métricas do Container Insights são cobradas por observação, em vez de serem cobradas por métrica armazenada ou log ingerido. Para obter mais informações sobre os preços do CloudWatch, consulte Preço do Amazon CloudWatch.

nota

No Windows, métricas de rede, como pod_network_rx_bytes e pod_network_tx_bytes, não são coletadas para a hospedagem de contêineres de processos.

Nome da métrica Dimensões com qualquer versão do Container Insights Dimensões adicionais com o Container Insights com observabilidade aprimorada para o Amazon EKS Descrição

cluster_failed_node_count

ClusterName

O número de nós do operador com falha no cluster. Um nó é considerado com falha quando apresenta qualquer condição de nó. Para obter mais informações, consulte Condições na documentação do Kubernetes.

cluster_node_count

ClusterName

O número total de nós do operador no cluster.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

O número de pods em execução por namespace no recurso especificado pelas dimensões que você está usando.

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

O número máximo de unidades de CPU que pode ser atribuído a um único nó neste cluster.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem de unidades de CPU reservadas para componentes do nó, como kubelet, kube-proxy e Docker.

Fórmula: node_cpu_request / node_cpu_limit

nota

node_cpu_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

O número de unidades da CPU que está sendo usado nos nós do cluster.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem total de unidades de CPU que está sendo usada nos nós do cluster.

Fórmula: node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem total da capacidade do sistema de arquivos que está sendo usado nos nós do cluster.

Fórmula: node_filesystem_usage / node_filesystem_capacity

nota

node_filesystem_usage e node_filesystem_capacity não são relatados diretamente como métricas, mas são campos em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

A quantidade máxima de memória, em bytes, que pode ser atribuída a um único nó neste cluster.

node_filesystem_inodes

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS. Não está disponível no Windows.

ClusterName

ClusterName, InstanceId, NodeName

O número total de inodes (usados e não usados) em um nó.

node_filesystem_inodes_free

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS. Não está disponível no Windows.

ClusterName

ClusterName, InstanceId, NodeName

O número de inodes não utilizados em um nó.

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem de memória que está sendo usada no momento nos nós do cluster.

Fórmula: node_memory_request / node_memory_limit

nota

node_memory_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem de memória que está sendo usada no momento pelo nó ou nós. É o percentual de uso de memória de nó dividido pela limitação de memória de nó.

Fórmula: node_memory_working_set / node_memory_limit.

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

A quantidade de memória, em bytes, sendo usada no conjunto de trabalho dos nós no cluster.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

O número total de bytes transmitidos e recebidos por segundo pela rede por nó em um cluster.

Fórmula: node_network_rx_bytes + node_network_tx_bytes

nota

node_network_rx_bytes e node_network_tx_bytes não são relatados diretamente como métricas, mas são campos em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

O número de contêineres em execução por nó em um cluster.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

O número de pods em execução por nó em um cluster.

node_status_allocatable_pods

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

O número de pods que podem ser atribuídos a um nó com base em seus recursos alocáveis, que é definido como o restante da capacidade de um nó depois de contabilizar as reservas de daemons do sistema e os limites de remoção rígidos.

node_status_capacity_pods

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

O número de pods que podem ser atribuídos a um nó com base em sua capacidade.

node_status_condition_ready

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se a condição de status do nó Ready é verdadeira.

node_status_condition_memory_pressure

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se a condição de status do nó MemoryPressure é verdadeira.

node_status_condition_pid_pressure

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se a condição de status do nó PIDPressure é verdadeira.

node_status_condition_disk_pressure

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se a condição de status do nó OutOfDisk é verdadeira.

node_status_condition_unknown

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se alguma das condições de status do nó é Desconhecida.

node_interface_network_rx_dropped

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

O número de pacotes que foram recebidos e posteriormente descartados por uma interface de rede no nó.

node_interface_network_tx_dropped

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

O número de pacotes que deveriam ser transmitidos, mas foram descartados por uma interface de rede no nó.

node_diskio_io_service_bytes_total

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS. Não está disponível no Windows.

ClusterName

ClusterName, InstanceId, NodeName

O número total de bytes transferidos por todas as operações de E/S no nó.

node_diskio_io_serviced_total

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS. Não está disponível no Windows.

ClusterName

ClusterName, InstanceId, NodeName

O número total de operações de E/S no nó.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

A capacidade da CPU reservada por pod em um cluster.

Fórmula: pod_cpu_request / node_cpu_limit

nota

pod_cpu_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Serviço, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

A porcentagem de unidades de CPU que estão sendo usadas por pods.

Fórmula: pod_cpu_usage_total / node_cpu_limit

nota

pod_cpu_usage_total não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Serviço, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

O percentual das unidades de CPU que estão sendo usadas por pods com relação ao limite de pods.

Fórmula: pod_cpu_usage_total / pod_cpu_limit

nota

pod_cpu_usage_total e pod_cpu_limit não são relatados diretamente como métricas, mas são campos em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

A porcentagem de memória reservada para pods.

Fórmula: pod_memory_request / node_memory_limit

nota

pod_memory_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Serviço, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

A porcentagem de memória que está sendo usada atualmente pelo pod ou pods.

Fórmula: pod_memory_working_set / node_memory_limit

nota

pod_memory_working_set não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Serviço, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

O percentual de memória que está sendo usada por pods com relação ao limite de pods. Se qualquer contêiner no pod não tiver um limite de memória definido, essa métrica não aparecerá.

Fórmula: pod_memory_working_set / pod_memory_limit

nota

pod_memory_working_set não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Serviço, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

O número de bytes que estão sendo recebidos por segundo na rede pelo pod.

Fórmula: sum(pod_interface_network_rx_bytes)

nota

pod_interface_network_rx_bytes não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Serviço, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

O número de bytes que estão sendo transmitidos por segundo na rede pelo pod.

Fórmula: sum(pod_interface_network_tx_bytes)

nota

pod_interface_network_tx_bytes não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_cpu_request

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

As solicitações da CPU para o pod.

Fórmula: sum(container_cpu_request)

nota

pod_cpu_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_memory_request

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

As solicitações de memória para o pod.

Fórmula: sum(container_memory_request)

nota

pod_memory_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_cpu_limit

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

O limite de CPU definido para os contêineres no pod. Se algum contêiner no pod não tiver um limite de CPU definido, essa métrica não será exibida.

Fórmula: sum(container_cpu_limit)

nota

pod_cpu_limit não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_memory_limit

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

O limite de memória definido para os contêineres no pod. Se qualquer contêiner no pod não tiver um limite de memória definido, essa métrica não aparecerá.

Fórmula: sum(container_memory_limit)

nota

pod_cpu_limit não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_status_failed

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que todos os contêineres no pod foram encerrados, e pelo menos um contêiner foi encerrado com um status diferente de zero ou foi encerrado pelo sistema.

pod_status_ready

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que todos os contêineres no pod estão prontos, tendo atingido a condição ContainerReady.

pod_status_running

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que todos os contêineres no pod estão em execução.

pod_status_scheduled

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que o pod foi agendado para um nó.

pod_status_unknown

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que o status do pod não pode ser obtido.

pod_status_pending

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que o pod foi aceito pelo cluster, mas um ou mais contêineres ainda não estão prontos.

pod_status_succeeded

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que todos os contêineres no pod foram encerrados com êxito e não serão reiniciados.

pod_number_of_containers

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres definidos na especificação do pod.

pod_number_of_running_containers

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão atualmente no estado Running.

pod_container_status_terminated

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão no estado Terminated.

pod_container_status_running

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão no estado Running.

pod_container_status_waiting

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão no estado Waiting.

pod_container_status_waiting_reason_crash_loop_back_off

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão pendentes devido a um erro CrashLoopBackOff, em que um contêiner falha repetidamente ao iniciar.

pod_container_status_waiting_reason_create_container_config_error

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão pendentes com o motivo CreateContainerConfigError. Isso ocorre devido a um erro ao criar a configuração do contêiner.

pod_container_status_waiting_reason_create_container_error

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão pendentes com o motivo CreateContainerError devido a um erro ao criar o contêiner.

pod_container_status_waiting_reason_image_pull_error

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão pendentes devido a ErrImagePull, ImagePullBackOff ou InvalidImageName. Essas situações ocorrem devido a um erro ao extrair a imagem do contêiner.

pod_container_status_waiting_reason_oom_killer

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão no estado Terminated

devido a memória insuficiente (eliminado por OOM).

pod_container_status_waiting_reason_start_error

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Relata o número de contêineres no pod que estão pendentes com o motivo StartError devido a um erro ao iniciar o contêiner.

pod_interface_network_rx_dropped

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

O número de pacotes que foram recebidos e posteriormente descartados em uma interface de rede para o pod.

pod_interface_network_tx_dropped

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

O número de pacotes que deveriam ser transmitidos, mas foram descartados para o pod.

container_cpu_utilization

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

A porcentagem de unidades de CPU que estão sendo usadas pelo contêiner.

Fórmula: container_cpu_usage_total / node_cpu_limit

nota

container_cpu_utilization não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

container_cpu_utilization_over_container_limit

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

A porcentagem de unidades de CPU que estão sendo usadas pelo contêiner em relação ao limite do contêiner. Se o contêiner não tiver um limite de CPU definido, essa métrica não será exibida.

Fórmula: container_cpu_usage_total / container_cpu_limit

nota

container_cpu_utilization_over_container_limit não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

container_memory_utilization

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

A porcentagem de unidades de memória que está sendo usada pelo contêiner.

Fórmula: container_memory_working_set / node_memory_limit

nota

container_memory_utilization não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

container_memory_utilization_over_container_limit

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

A porcentagem de unidades de memória que está sendo usada pelo contêiner em relação ao limite do contêiner. Se o contêiner não tiver um limite de memória definido, essa métrica não será exibida.

Fórmula: container_memory_working_set / container_memory_limit

nota

container_memory_utilization_over_container_limit não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para ter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

container_memory_failures_total

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS. Não está disponível no Windows.

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

O número de falhas de alocação de memória que ocorreram no contêiner.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

O número total de reinicializações de contêineres em um pod.

service_number_of_running_pods

Serviço, Namespace, ClusterName

ClusterName

O número de pods que executam o serviço ou os serviços no cluster.

replicas_desired

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

O número de pods desejados para uma workload, conforme definido na especificação da workload.

replicas_ready

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

O número de pods de uma workload que atingiram o status de “prontos”.

status_replicas_available

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

O número de pods para uma workload que estão disponíveis. Um pod está disponível quando estiver pronto para o minReadySeconds definido na especificação da workload.

status_replicas_unavailable

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

PodName, Namespace, ClusterName

O número de pods para uma workload que não estão disponíveis. Um pod está disponível quando estiver pronto para o minReadySeconds definido na especificação da workload. Os pods não estarão disponíveis se não atenderem a esse critério.

apiserver_storage_objects

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, resource

O número de objetos armazenados no etcd no momento da última verificação.

apiserver_request_total

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, code, verb

O número total de solicitações de API para o servidor de API do Kubernetes.

apiserver_request_duration_seconds

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, verb

Latência de resposta para solicitações de API para o servidor de API do Kubernetes.

apiserver_admission_controller_admission_duration_seconds

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, operation

Latência do controlador de admissão em segundos. Um controlador de admissão é um código que intercepta solicitações para o servidor de API do Kubernetes.

rest_client_request_duration_seconds

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, operation

Latência de resposta observada pelos clientes que chamam o servidor da API do Kubernetes. Essa métrica é experimental e pode mudar em versões futuras do Kubernetes.

rest_client_requests_total

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, code, method

O número total de solicitações de API para o servidor de API do Kubernetes feitas por clientes. Essa métrica é experimental e pode mudar em versões futuras do Kubernetes.

etcd_request_duration_seconds

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, operation

Latência de resposta das chamadas de API para o Etcd. Essa métrica é experimental e pode mudar em versões futuras do Kubernetes.

apiserver_storage_size_bytes

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, endpoint

Tamanho do arquivo de banco de dados de armazenamento alocado fisicamente em bytes. Essa métrica é experimental e pode mudar em versões futuras do Kubernetes.

apiserver_longrunning_requests

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, resource

O número de solicitações ativas de longa duração para o servidor de API do Kubernetes.

apiserver_current_inflight_requests

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, request_kind

O número de solicitações que estão sendo processadas pelo servidor de API do Kubernetes.

apiserver_admission_webhook_admission_duration_seconds

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, name

Latência do webhook de admissão em segundos. Os webhooks de admissão são retornos de chamada HTTP que recebem solicitações de admissão e realizam alguma ação com elas.

apiserver_admission_step_admission_duration_seconds

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, operation

Latência da subetapa de admissão em segundos.

apiserver_requested_deprecated_apis

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, group

Número de solicitações para APIs obsoletas no servidor de API do Kubernetes.

apiserver_request_total_5XX

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, code, verb

Número de solicitações ao servidor de API do Kubernetes que foram respondidas com um código de resposta HTTP 5XX.

apiserver_storage_list_duration_seconds

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, resource

Latência de resposta da listagem de objetos do Etcd. Essa métrica é experimental e pode mudar em versões futuras do Kubernetes.

apiserver_current_inqueue_requests

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, request_kind

O número de solicitações em fila enfileiradas pelo servidor de API do Kubernetes. Essa métrica é experimental e pode mudar em versões futuras do Kubernetes.

apiserver_flowcontrol_rejected_requests_total

Essa métrica está disponível somente com o Container Insights com observabilidade aprimorada para o Amazon EKS

ClusterName

ClusterName, reason

Número de solicitações rejeitadas pelo subsistema API Priority and Fairness. Essa métrica é experimental e pode mudar em versões futuras do Kubernetes.

Métricas da GPU NVIDIA

A partir da versão 1.300034.0 do agente do CloudWatch, o Container Insights com observabilidade aprimorada para o Amazon EKS coleta métricas da GPU NVIDIA de workloads do EKS por padrão. O agente do CloudWatch deve ser instalado usando o complemento Observability do CloudWatch para o EKS na versão v1.3.0-eksbuild.1 ou em versões posteriores. Para ter mais informações, consulte Instalação do agente do CloudWatch com o complemento de observabilidade do EKS do Amazon CloudWatch ou com o chart do Helm. Essas métricas de GPU NVIDIA coletadas estão listadas na tabela desta seção.

Para que o Container Insights colete métricas de GPU NVIDIA, você deve atender aos seguintes pré-requisitos:

  • Você deve usar o Container Insights com observabilidade aprimorada para o Amazon EKS, com o complemento Observability do Amazon CloudWatch para o EKS na versão v1.3.0-eksbuild.1 ou em versões posteriores.

  • O plug-in de dispositivo NVIDIA para Kubernetes deve estar instalado no cluster.

  • O kit de ferramentas de contêiner NVIDIA deve ser instalado nos nós do cluster. Por exemplo, as AMIs aceleradas otimizadas do Amazon EKS são criadas com os componentes necessários.

Você pode optar por não coletar métricas de GPU NVIDIA definindo a opção accelerated_compute_metrics no arquivo de configuração do agente CloudWatch como false. Para obter mais informações e um exemplo de configuração de exclusão, consulte (Opcional) Configuração adicional.

Nome da métrica Dimensões Descrição

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

O tamanho total do buffer de quadros, em bytes, nas GPUs alocadas ao contêiner.

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

O bytes do buffer de quadros usados nas GPUs alocadas ao contêiner.

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

A porcentagem do buffer de quadros usada das GPUs alocadas ao contêiner.

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

O uso de energia em watts das GPUs alocadas ao contêiner.

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

A temperatura em graus Celsius das GPUs alocadas ao contêiner.

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

A porcentagem de utilização das GPUs alocadas ao contêiner.

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

O tamanho total do buffer de quadros, em bytes, nas GPUs alocadas ao nó.

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Os bytes do buffer de quadros usados nas GPUs alocadas ao nó.

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

A porcentagem de buffer de quadros usado nas GPUs alocadas ao nó.

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

O uso de energia em watts das GPUs alocadas ao nó.

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

A temperatura em graus Celsius das GPUs alocadas ao nó.

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

A porcentagem de utilização das GPUs alocadas ao nó.

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

O tamanho total do buffer de quadros, em bytes, nas GPUs alocadas ao pod.

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Os bytes do buffer de quadros usados nas GPUs alocadas ao pod.

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

A porcentagem de buffer de quadros usada das GPUs alocadas ao pod.

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

O uso de energia em watts das GPUs alocadas ao pod.

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

A temperatura em graus Celsius das GPUs alocadas ao pod.

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

A porcentagem de utilização das GPUs alocadas ao pod.

Métricas do AWS Neuron para o AWS Trainium e para o AWS Inferentia

A partir da versão 1.300036.0 do agente do CloudWatch, o Container Insights com observabilidade aprimorada para o Amazon EKS coleta métricas de computação acelerada dos aceleradores AWS Trainium e AWS Inferentia por padrão. O agente do CloudWatch deve ser instalado usando o complemento Observability do CloudWatch para o EKS na versão v1.5.0-eksbuild.1 ou em versões posteriores. Para obter mais informações sobre o complemento, consulte Instalação do agente do CloudWatch com o complemento de observabilidade do EKS do Amazon CloudWatch ou com o chart do Helm. Para obter mais informações sobre o AWS Trainium, consulte AWS Trainium. Para obter mais informações sobre o AWS Inferentia, consulte AWS Inferentia.

Para que o Container Insights colete métricas do AWS Neuron, você deve atender aos seguintes pré-requisitos:

  • Você deve usar o Container Insights com observabilidade aprimorada para o Amazon EKS, com o complemento Observability do Amazon CloudWatch para o EKS na versão v1.5.0-eksbuild.1 ou em versões posteriores.

  • O driver Neuron deve estar instalado nos nós do cluster.

  • O plug-in do dispositivo Neuron deve estar instalado no cluster. Por exemplo, as AMIs aceleradas otimizadas do Amazon EKS são criadas com os componentes necessários.

As métricas que são coletadas estão listadas na tabela desta seção. As métricas são coletadas para o AWS Trainium, o AWS Inferentia e o AWS Inferentia2.

O agente do CloudWatch coleta essas métricas do monitor do Neuron e realiza a correlação necessária de recursos do Kubernetes para fornecer métricas nos níveis de pod e de contêiner

Nome da métrica Dimensões Descrição

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Utilização do NeuronCore, durante o período de captura do NeuronCore que está alocado para o contêiner.

Unidade: Percentual

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para constantes durante o treinamento pelo NeuronCore que está alocado para o contêiner (ou ponderações durante a inferência).

Unidade: bytes

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o código executável dos modelos pelo NeuronCore que está alocado para o contêiner.

Unidade: bytes

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o rascunho compartilhado dos modelos pelo NeuronCore que está alocado para o contêiner. Esta região de memória está reservada para os modelos.

Unidade: bytes

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o runtime do Neuron pelo NeuronCore que está alocado para o contêiner.

Unidade: bytes

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para tensores pelo NeuronCore que está alocado para o contêiner.

Unidade: bytes

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

A quantidade total de memória usada pelo NeuronCore que está alocado para o contêiner.

Unidade: bytes

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

O número de eventos do sistema ECC corrigidos e não corrigidos para a SRAM no chip e para a memória do dispositivo Neuron no nó.

Unidade: contagem

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

A utilização do NeuronCore durante o período capturado do NeuronCore que está alocado para o pod.

Unidade: Percentual

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para constantes durante o treinamento pelo NeuronCore que está alocado para o pod (ou ponderações durante a inferência).

Unidade: bytes

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o código executável dos modelos pelo NeuronCore que está alocado para o pod.

Unidade: bytes

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o rascunho compartilhado dos modelos pelo NeuronCore que está alocado para o pod. Esta região de memória está reservada para os modelos.

Unidade: bytes

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o runtime do Neuron pelo NeuronCore que está alocado para o pod.

Unidade: bytes

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para tensores pelo NeuronCore que está alocado para o pod.

Unidade: bytes

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

A quantidade total de memória usada pelo NeuronCore que está alocado para o pod.

Unidade: bytes

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

O número de eventos do sistema ECC corrigidos e não corrigidos para a SRAM no chip e para a memória do dispositivo Neuron que está alocado para um pod.

Unidade: bytes

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

A utilização do NeuronCore durante o período capturado do NeuronCore que está alocado para o nó.

Unidade: Percentual

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para constantes durante o treinamento pelo NeuronCore que está alocado para o nó (ou ponderações durante a inferência).

Unidade: bytes

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o código executável dos modelos pelo NeuronCore que está alocado para o nó.

Unidade: bytes

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o rascunho compartilhado dos modelos pelo NeuronCore que está alocado para o nó. Esta é uma região de memória reservada para os modelos.

Unidade: bytes

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para o runtime do Neuron pelo NeuronCore que está alocado para o nó.

Unidade: bytes

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

A quantidade de memória do dispositivo usada para tensores pelo NeuronCore que está alocado para o nó.

Unidade: bytes

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

A quantidade total de memória usada pelo NeuronCore que está alocado para o nó.

Unidade: bytes

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

O número total de erros de execução no nó. Isso é calculado pelo agente do CloudWatch ao agregar os erros dos seguintes tipos: generic, numerical, transient, model, runtime e hardware.

Unidade: contagem

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

O uso total de memória do dispositivo Neuron em bytes no nó.

Unidade: bytes

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

Em segundos, a latência para uma execução no nó medida pelo runtime do Neuron.

Unidade: segundos

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

O número de eventos do sistema ECC corrigidos e não corrigidos para a SRAM no chip e para a memória do dispositivo Neuron no nó.

Unidade: contagem

Métricas do AWS Elastic Fabric Adapter (EFA)

A partir da versão 1.300037.0 do agente do CloudWatch, o Container Insights com observabilidade aprimorada para o Amazon EKS coleta métricas do AWS Elastic Fabric Adapter (EFA) de clusters do Amazon EKS em instâncias do Linux. O agente do CloudWatch deve ser instalado usando o complemento Observability do CloudWatch para o EKS na versão v1.5.2-eksbuild.1 ou em versões posteriores. Para obter mais informações sobre o complemento, consulte Instalação do agente do CloudWatch com o complemento de observabilidade do EKS do Amazon CloudWatch ou com o chart do Helm. Para obter mais informações sobre o AWS Elastic Fabric Adapter, consulte Elastic Fabric Adapter.

Para que o Container Insights colete métricas do AWS Elastic Fabric Adapter, você deve atender aos seguintes pré-requisitos:

  • Você deve usar o Container Insights com observabilidade aprimorada para o Amazon EKS, com o complemento Observability do Amazon CloudWatch para o EKS na versão v1.5.2-eksbuild.1 ou em versões posteriores.

  • O plug-in do dispositivo EFA deve estar instalado no cluster. Para obter mais informações, consulte aws-efa-k8s-device-plugin no GitHub.

As métricas que são coletadas estão listadas na tabela apresentada a seguir.

Nome da métrica Dimensões Descrição

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

O número de bytes por segundo que são recebidos pelos dispositivos EFA que estão alocados para o contêiner.

Unidade: bytes/segundo

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

O número de bytes por segundo que são transmitidos pelos dispositivos EFA que estão alocados para o contêiner.

Unidade: bytes/segundo

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

O número de pacotes que foram recebidos e, em seguida, descartados pelos dispositivos EFA que estão alocados para o contêiner.

Unidade: contagem/segundo

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

O número de bytes por segundo recebidos usando operações de leitura de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o contêiner.

Unidade: bytes/segundo

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

O número de bytes por segundo transmitidos usando operações de leitura de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o contêiner.

Unidade: bytes/segundo

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

O número de bytes por segundo recebidos durante operações de gravação de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o contêiner.

Unidade: bytes/segundo

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

O número de bytes por segundo que são recebidos pelos dispositivos EFA que estão alocados para o pod.

Unidade: bytes/segundo

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

O número de bytes por segundo que são transmitidos pelos dispositivos EFA que estão alocados para o pod.

Unidade: bytes/segundo

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

O número de pacotes que foram recebidos e, em seguida, descartados pelos dispositivos EFA alocados para o pod.

Unidade: contagem/segundo

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

O número de bytes por segundo recebidos usando operações de leitura de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o pod.

Unidade: bytes/segundo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

O número de bytes por segundo transmitidos usando operações de leitura de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o pod.

Unidade: bytes/segundo

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

O número de bytes por segundo recebidos durante operações de gravação de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o pod.

Unidade: bytes/segundo

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

O número de bytes por segundo que são recebidos pelos dispositivos EFA que estão alocados para o nó.

Unidade: bytes/segundo

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

O número de bytes por segundo que são transmitidos pelos dispositivos EFA que estão alocados para o nó.

Unidade: bytes/segundo

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

O número de pacotes que foram recebidos e, em seguida, descartados pelos dispositivos EFA que estão alocados para o nó.

Unidade: contagem/segundo

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

O número de bytes por segundo recebidos usando operações de leitura de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o nó.

Unidade: bytes/segundo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

O número de bytes por segundo transmitidos usando operações de leitura de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o pod.

Unidade: bytes/segundo

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

O número de bytes por segundo recebidos durante operações de gravação de acesso remoto direto à memória pelos dispositivos EFA que estão alocados para o nó.

Unidade: bytes/segundo

Métricas do Amazon SageMaker HyperPod

A partir da versão v2.0.1-eksbuild.1 do complemento de observabilidade do EKS do CloudWatch, o Container Insights com observabilidade aprimorada para o Amazon EKS coleta automaticamente as métricas do Amazon SageMaker HyperPod de clusters do Amazon EKS. Para obter mais informações sobre o complemento, consulte Instalação do agente do CloudWatch com o complemento de observabilidade do EKS do Amazon CloudWatch ou com o chart do Helm. Para obter mais informações sobre o Amazon SageMaker HyperPod, consulte Amazon SageMakerHyperPod.

As métricas que são coletadas estão listadas na tabela apresentada a seguir.

Nome da métrica Dimensões Descrição

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica se um nó está rotulado como Unschedulable pelo Amazon SageMaker HyperPod. Isso significa que o nó está executando verificações de integridade aprofundadas e não está disponível para executar workloads.

Unidade: contagem

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica se um nó está rotulado como Schedulable pelo Amazon SageMaker HyperPod. Isso significa que o nó foi aprovado em verificações de integridade básicas ou em verificações de integridade aprofundadas e está disponível para executar workloads.

Unidade: contagem

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Indica se um nó está rotulado como UnschedulablePendingReplacement pelo HyperPod. Isso significa que o nó não foi aprovado em verificações de integridade aprofundadas ou em verificações do agente de monitoramento de integridade e precisa ser substituído.

Se a recuperação automática de nó estiver habilitada, o nó será automaticamente substituído pelo Amazon SageMaker HyperPod.

Unidade: contagem

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Indica se um nó está rotulado como UnschedulablePendingReboot pelo Amazon SageMaker HyperPod. Isso significa que o nó está passando por verificações de integridade aprofundadas e precisa ser reiniciado.

Se a recuperação automática de nó estiver habilitada, o nó será automaticamente reinicializado pelo Amazon SageMaker HyperPod.

Unidade: contagem