Métricas básicas no Amazon CloudWatch Amazon CloudWatch Observability Operator

Monitorar dados de cluster com o Amazon CloudWatch

O Amazon CloudWatch é um serviço de monitoramento que coleta métricas e logs dos seus recursos na nuvem. O CloudWatch fornece algumas métricas básicas do Amazon EKS gratuitamente ao usar um novo cluster na versão 1.28 ou superior. No entanto, ao usar o CloudWatch Observability Operator como um complemento do Amazon EKS, você pode obter recursos aprimorados de observabilidade.

Métricas básicas no Amazon CloudWatch

Se o cluster estiver na versão 1.28 ou mais recente do Kubernetes, as métricas fornecidas do CloudWatch serão disponibilizadas gratuitamente no namespace do AWS/EKS. A tabela a seguir fornece uma lista das métricas básicas que estão disponíveis para as versões com suporte. Cada métrica listada tem um padrão de um minuto.

Nome da métrica	Descrição
`scheduler_schedule_attempts_total`	O número total de tentativas do agendador para agendar pods no cluster para um determinado período. Essa métrica ajuda a monitorar a workload do agendador e pode indicar a pressão do agendamento ou possíveis problemas com o posicionamento do pod. Unidades: contagem Estatísticas válidas: soma
`scheduler_schedule_attempts_SCHEDULED`	O número de tentativas com êxito do agendador em agendar pods em nós no cluster por um determinado período. Unidades: contagem Estatísticas válidas: soma
`scheduler_schedule_attempts_UNSCHEDULABLE`	O número de tentativas em agendar pods que não puderam ser agendados por um determinado período devido a restrições válidas, como CPU ou memória insuficientes em um nó. Unidades: contagem Estatísticas válidas: soma
`scheduler_schedule_attempts_ERROR`	O número de tentativas de agendar pods que falharam em um determinado período devido a um problema interno com o próprio agendador, como problemas de conectividade do servidor de API. Unidades: contagem Estatísticas válidas: soma
`scheduler_pending_pods`	O número total de pods pendentes a serem agendados pelo agendador no cluster em um determinado período. Unidades: contagem Estatísticas válidas: soma
`scheduler_pending_pods_ACTIVEQ`	O número de pods pendentes na activeQ, que estão aguardando para serem agendados no cluster por um determinado período. Unidades: contagem Estatísticas válidas: soma
`scheduler_pending_pods_UNSCHEDULABLE`	O número de pods pendentes que o agendador tentou agendar e falhou, e que estão mantidos em um estado não agendável para nova tentativa. Unidades: contagem Estatísticas válidas: soma
`scheduler_pending_pods_BACKOFF`	O número de pods pendentes em `backoffQ` em um estado de backoff que aguardam a expiração do período de backoff. Unidades: contagem Estatísticas válidas: soma
`scheduler_pending_pods_GATED`	O número de pods pendentes que estão atualmente aguardando em um estado fechado, pois não podem ser agendados até que atendam às condições exigidas. Unidades: contagem Estatísticas válidas: soma
`apiserver_request_total`	O número de solicitações HTTP feitas em todos os servidores de API no cluster. Unidades: contagem Estatísticas válidas: soma
`apiserver_request_total_4XX`	O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram em códigos de status `4XX` (erro do cliente). Unidades: contagem Estatísticas válidas: soma
`apiserver_request_total_429`	O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram no código de status `429`, que ocorre quando os clientes excedem os limites de taxa. Unidades: contagem Estatísticas válidas: soma
`apiserver_request_total_5XX`	O número de solicitações HTTP feitas a todos os servidores de API no cluster que resultaram em códigos de status `5XX` (erro do servidor). Unidades: contagem Estatísticas válidas: soma
`apiserver_request_total_LIST_PODS`	O número de solicitações de pods `LIST` feitas a todos os servidores de API no cluster. Unidades: contagem Estatísticas válidas: soma
`apiserver_request_duration_seconds_PUT_P99`	O 99.º percentil de latência para solicitações `PUT` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `PUT` são concluídas. Unidades: segundos Estatística válida: média
`apiserver_request_duration_seconds_PATCH_P99`	O 99.º percentil de latência para solicitações `PATCH` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `PATCH` são concluídas. Unidades: segundos Estatística válida: média
`apiserver_request_duration_seconds_POST_P99`	O 99.º percentil de latência para solicitações `POST` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `POST` são concluídas. Unidades: segundos Estatística válida: média
`apiserver_request_duration_seconds_GET_P99`	O 99.º percentil de latência para solicitações `GET` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `GET` são concluídas. Unidades: segundos Estatística válida: média
`apiserver_request_duration_seconds_LIST_P99`	O 99.º percentil de latência para solicitações `LIST` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `LIST` são concluídas. Unidades: segundos Estatística válida: média
`apiserver_request_duration_seconds_DELETE_P99`	O 99.º percentil de latência para solicitações `DELETE` calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações `DELETE` são concluídas. Unidades: segundos Estatística válida: média
`apiserver_current_inflight_requests_MUTATING`	O número de solicitações mutantes (`POST`, `PUT`, `DELETE`, `PATCH`) atualmente sendo processadas em todos os servidores de API no cluster. Essa métrica representa solicitações que estão em andamento e ainda não concluíram o processamento. Unidades: contagem Estatísticas válidas: soma
`apiserver_current_inflight_requests_READONLY`	O número de solicitações somente leitura (`GET`, `LIST`) que estão sendo processadas atualmente em todos os servidores de API no cluster. Essa métrica representa solicitações que estão em andamento e ainda não concluíram o processamento. Unidades: contagem Estatísticas válidas: soma
`apiserver_admission_webhook_request_total`	O número de solicitações de webhook de admissão feitas em todos os servidores de API no cluster. Unidades: contagem Estatísticas válidas: soma
`apiserver_admission_webhook_request_total_ADMIT`	O número de solicitações mutantes de webhook de admissão feitas em todos os servidores de API no cluster. Unidades: contagem Estatísticas válidas: soma
`apiserver_admission_webhook_request_total_VALIDATING`	O número de solicitações de validação de webhook de admissão feitas em todos os servidores de API no cluster. Unidades: contagem Estatísticas válidas: soma
`apiserver_admission_webhook_rejection_count`	O número de solicitações de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas. Unidades: contagem Estatísticas válidas: soma
`apiserver_admission_webhook_rejection_count_ADMIT`	O número de solicitações mutantes de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas. Unidades: contagem Estatísticas válidas: soma
`apiserver_admission_webhook_rejection_count_VALIDATING`	O número de solicitações de validação de webhook de admissão feitas em todos os servidores de API no cluster que foram rejeitadas. Unidades: contagem Estatísticas válidas: soma
`apiserver_admission_webhook_admission_duration_seconds`	O 99.º percentil de latência para solicitações de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações de webhook de admissão de terceiros são concluídas. Unidades: segundos Estatística válida: média
`apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99`	O 99.º percentil de latência para solicitações mutantes de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações mutantes de webhook de admissão de terceiros são concluídas. Unidades: segundos Estatística válida: média
`apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99`	O 99.º percentil de latência para solicitações de validação de webhook de admissão de terceiros calculado com base em todas as solicitações em todos os servidores de API no cluster. Representa o tempo de resposta abaixo do qual 99% de todas as solicitações de validação de webhook de admissão de terceiros são concluídas. Unidades: segundos Estatística válida: média
`apiserver_storage_size_bytes`	O tamanho físico em bytes do arquivo de banco de dados de armazenamento etcd usado pelos servidores de API no cluster. Essa métrica representa o espaço em disco real alocado para o armazenamento. Unidades: bytes Estatísticas válidas: máximo

Amazon CloudWatch Observability Operator

O Amazon CloudWatch Observability coleta logs, métricas e dados de rastreamento em tempo real. Ele os envia para o Amazon CloudWatch e para o AWS X-Ray. É possível instalar este complemento para habilitar o CloudWatch Application Signals e o CloudWatch Container Insights com observabilidade aprimorada para o Amazon EKS. Isso ajuda você a monitorar a integridade e o desempenho da infraestrutura e de aplicações conteinerizadas. O Amazon CloudWatch Observability Operator foi desenvolvido para instalar e configurar os componentes necessários.

O Amazon EKS oferece suporte ao Amazon CloudWatch Observability Operator como um complemento do Amazon EKS. O complemento possibilita o uso do Container Insights em nós de processamento do Linux e do Windows no cluster. Para ativar o Container Insights no Windows, a versão do complemento do Amazon EKS deve ser 1.5.0 ou superior. No momento, o CloudWatch Application Signals não é compatível com o Windows para Amazon EKS.

Os tópicos abaixo descrevem como começar a utilizar o CloudWatch Observability Operator para o seu cluster do Amazon EKS.

Para obter instruções sobre como instalar esse complemento, consulte Instalar o CloudWatch Agent com o complemento do EKS do Amazon CloudWatch Observability ou o chart do Help no Guia do usuário do Amazon CloudWatch.
Para obter mais informações sobre os CloudWatch Application Signals, consulte Application Signals no Guia do usuário do Amazon CloudWatch.
Para obter mais informações sobre o Container Insights, consulte Usar o Container Insights no Manual do usuário do Amazon CloudWatch.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Ambiente de gerenciamento

Logs do ambiente de gerenciamento