Monitorar dados de cluster com o Amazon CloudWatch - Amazon EKS

Ajudar a melhorar esta página

Para contribuir com este guia de usuário, escolha o link Editar esta página no GitHub, disponível no painel direito de cada página.

Monitorar dados de cluster com o Amazon CloudWatch

O Amazon CloudWatch é um serviço de monitoramento que coleta métricas e logs dos seus recursos na nuvem. O CloudWatch fornece algumas métricas básicas do Amazon EKS gratuitamente ao usar um novo cluster na versão 1.28 ou superior. No entanto, ao usar o CloudWatch Observability Operator como um complemento do Amazon EKS, você pode obter recursos aprimorados de observabilidade.

Métricas básicas no Amazon CloudWatch

Se o cluster estiver na versão 1.28 ou mais recente do Kubernetes, as métricas fornecidas do CloudWatch serão disponibilizadas gratuitamente no namespace do AWS/EKS. A tabela a seguir fornece uma lista das métricas básicas que estão disponíveis para as versões com suporte. Cada métrica listada tem um padrão de um minuto.

Nome da métrica Descrição

scheduler_schedule_attempts_total

O número total de tentativas do agendador para agendar pods no cluster para um determinado período. Essa métrica ajuda a monitorar a workload do agendador e pode indicar a pressão do agendamento ou possíveis problemas com o posicionamento do pod.

Unidades: contagem

Estatísticas válidas: soma

scheduler_schedule_attempts_SCHEDULED

O número de tentativas com êxito do agendador em agendar pods em nós no cluster por um determinado período.

Unidades: contagem

Estatísticas válidas: soma

scheduler_schedule_attempts_UNSCHEDULABLE

O número de tentativas em agendar pods que não puderam ser agendados por um determinado período devido a restrições válidas, como CPU ou memória insuficientes em um nó.

Unidades: contagem

Estatísticas válidas: soma

scheduler_schedule_attempts_ERROR

O número de tentativas de agendar pods que falharam em um determinado período devido a um problema interno com o próprio agendador, como problemas de conectividade do servidor de API.

Unidades: contagem

Estatísticas válidas: soma

scheduler_pending_pods

O número total de pods pendentes a serem agendados pelo agendador no cluster em um determinado período.

Unidades: contagem

Estatísticas válidas: soma

scheduler_pending_pods_ACTIVEQ

O número de pods pendentes na activeQ, que estão aguardando para serem agendados no cluster por um determinado período.

Unidades: contagem

Estatísticas válidas: soma

scheduler_pending_pods_UNSCHEDULABLE

O número de pods pendentes que o agendador tentou agendar e falhou, e que estão mantidos em um estado não agendável para nova tentativa.

Unidades: contagem

Estatísticas válidas: soma

scheduler_pending_pods_BACKOFF

O número de pods pendentes em backoffQ em um estado de backoff que aguardam a expiração do período de backoff.

Unidades: contagem

Estatísticas válidas: soma

scheduler_pending_pods_GATED

O número de pods pendentes que estão atualmente aguardando em um estado fechado, pois não podem ser agendados até que atendam às condições exigidas.

Unidades: contagem

Estatísticas válidas: soma

apiserver_request_total

O número de solicitações HTTP feitas em todos os servidores de API no cluster.

Unidades: contagem

Estatísticas válidas: soma

apiserver_request_total_4XX

O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram em códigos de status 4XX (erro do cliente).

Unidades: contagem

Estatísticas válidas: soma

apiserver_request_total_429

O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram no código de status 429, que ocorre quando os clientes excedem os limites de taxa.

Unidades: contagem

Estatísticas válidas: soma

apiserver_request_total_5XX

O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram em códigos de status 5XX (erro do servidor).

Unidades: contagem

Estatísticas válidas: soma

apiserver_request_total_LIST_PODS

O número de solicitações de pods LIST feitas a todos os servidores de API no cluster.

Unidades: contagem

Estatísticas válidas: soma

apiserver_request_duration_seconds_PUT_P99

O 99.º percentil de latência para solicitações PUT calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações PUT são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_request_duration_seconds_PATCH_P99

O 99.º percentil de latência para solicitações PATCH calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações PATCH são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_request_duration_seconds_POST_P99

O 99.º percentil de latência para solicitações POST calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações POST são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_request_duration_seconds_GET_P99

O 99.º percentil de latência para solicitações GET calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações GET são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_request_duration_seconds_LIST_P99

O 99.º percentil de latência para solicitações LIST calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações LIST são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_request_duration_seconds_DELETE_P99

O 99.º percentil de latência para solicitações DELETE calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações DELETE são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_current_inflight_requests_MUTATING

O número de solicitações mutantes (POST, PUT, DELETE, PATCH) atualmente sendo processadas em todos os servidores de API no cluster. Essa métrica representa solicitações que estão em andamento e ainda não concluíram o processamento.

Unidades: contagem

Estatísticas válidas: soma

apiserver_current_inflight_requests_READONLY

O número de solicitações somente leitura (GET, LIST) que estão sendo processadas atualmente em todos os servidores de API no cluster. Essa métrica representa solicitações que estão em andamento e ainda não concluíram o processamento.

Unidades: contagem

Estatísticas válidas: soma

apiserver_admission_webhook_request_total

O número de solicitações de webhook de admissão feitas em todos os servidores de API no cluster.

Unidades: contagem

Estatísticas válidas: soma

apiserver_admission_webhook_request_total_ADMIT

O número de solicitações mutantes de webhook de admissão feitas em todos os servidores de API no cluster.

Unidades: contagem

Estatísticas válidas: soma

apiserver_admission_webhook_request_total_VALIDATING

O número de solicitações de validação de webhook de admissão feitas em todos os servidores de API no cluster.

Unidades: contagem

Estatísticas válidas: soma

apiserver_admission_webhook_rejection_count

O número de solicitações de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas.

Unidades: contagem

Estatísticas válidas: soma

apiserver_admission_webhook_rejection_count_ADMIT

O número de solicitações mutantes de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas.

Unidades: contagem

Estatísticas válidas: soma

apiserver_admission_webhook_rejection_count_VALIDATING

O número de solicitações de validação de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas.

Unidades: contagem

Estatísticas válidas: soma

apiserver_admission_webhook_admission_duration_seconds

O 99.º percentil de latência para solicitações de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações de webhook de admissão de terceiros são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99

O 99.º percentil de latência para solicitações mutantes de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações mutantes de webhook de admissão de terceiros são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99

O 99.º percentil de latência para solicitações de validação de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações de validação de webhook de admissão de terceiros são concluídas.

Unidades: segundos

Estatística válida: média

apiserver_storage_size_bytes

O tamanho físico em bytes do arquivo de banco de dados de armazenamento etcd usado pelos servidores de API no cluster. Essa métrica representa o espaço em disco real alocado para o armazenamento.

Unidades: bytes

Estatísticas válidas: máximo

Amazon CloudWatch Observability Operator

O Amazon CloudWatch Observability coleta logs, métricas e dados de rastreamento em tempo real. Ele os envia para o Amazon CloudWatch e para o AWS X-Ray. É possível instalar este complemento para habilitar o CloudWatch Application Signals e o CloudWatch Container Insights com observabilidade aprimorada para o Amazon EKS. Isso ajuda você a monitorar a integridade e o desempenho da infraestrutura e de aplicações conteinerizadas. O Amazon CloudWatch Observability Operator foi desenvolvido para instalar e configurar os componentes necessários.

O Amazon EKS oferece suporte ao Amazon CloudWatch Observability Operator como um complemento do Amazon EKS. O complemento possibilita o uso do Container Insights em nós de processamento do Linux e do Windows no cluster. Para ativar o Container Insights no Windows, a versão do complemento do Amazon EKS deve ser 1.5.0 ou superior. No momento, o CloudWatch Application Signals não é compatível com o Windows para Amazon EKS.

Os tópicos abaixo descrevem como começar a utilizar o CloudWatch Observability Operator para o seu cluster do Amazon EKS.