Supervisión de datos de clústeres con Amazon CloudWatch

Modo de enfoque

Supervisión de datos de clústeres con Amazon CloudWatch - Amazon EKS

Métricas básicas en Amazon CloudWatch Amazon CloudWatch Observability Operator

Amazon CloudWatch es un servicio de supervisión que recopila métricas y registros de los recursos en la nube. CloudWatch proporciona algunas métricas básicas de Amazon EKS de forma gratuita cuando se utiliza un clúster nuevo de la versión 1.28 o posterior. Sin embargo, al utilizar el operador de observabilidad de CloudWatch como complemento de Amazon EKS, se obtienen características de observabilidad mejoradas.

Métricas básicas en Amazon CloudWatch

En el caso de clústeres de la versión 1.28 o posterior de Kubernetes, obtendrá métricas suministradas por CloudWatch de forma gratuita en el espacio de nombres de AWS/EKS. En la siguiente tabla se presenta una lista de las métricas básicas disponibles para las versiones compatibles. Cada métrica que aparece en la lista tiene una frecuencia de un minuto.

Nombre de métrica	Descripción
`scheduler_schedule_attempts_total`	El número total de intentos del programador para programar los pods en el clúster durante un periodo determinado. Esta métrica ayuda a supervisar la carga de trabajo del programador y puede indicar la presión de programación o los posibles problemas relacionados con la ubicación de los pods. Unidades: recuento Estadísticas válidas: Sum
`scheduler_schedule_attempts_SCHEDULED`	El número de intentos correctos del programador para programar los pods en los nodos del clúster durante un periodo determinado. Unidades: recuento Estadísticas válidas: Sum
`scheduler_schedule_attempts_UNSCHEDULABLE`	El número de intentos para programar pods que no se pudieron programar durante un periodo determinado debido a restricciones válidas, como la falta de CPU o memoria en un nodo. Unidades: recuento Estadísticas válidas: Sum
`scheduler_schedule_attempts_ERROR`	El número de intentos para programar pods que no se pudieron programar durante un periodo determinado debido a un problema interno del propio programador, como problemas de conectividad con el servidor de API. Unidades: recuento Estadísticas válidas: Sum
`scheduler_pending_pods`	El número total de pods pendientes que programará el programador en el clúster durante un periodo determinado. Unidades: recuento Estadísticas válidas: Sum
`scheduler_pending_pods_ACTIVEQ`	El número de pods pendientes en ActiveQ que están esperando su programación en el clúster durante un periodo determinado. Unidades: recuento Estadísticas válidas: Sum
`scheduler_pending_pods_UNSCHEDULABLE`	El número de pods pendientes que el programador intentó programar y fallaron, y que se mantienen en un estado no programable para volver a intentarlo. Unidades: recuento Estadísticas válidas: Sum
`scheduler_pending_pods_BACKOFF`	El número de pods pendientes en `backoffQ` en estado de retroceso a la espera de que venza su periodo de retroceso. Unidades: recuento Estadísticas válidas: Sum
`scheduler_pending_pods_GATED`	El número de pods pendientes que se encuentran actualmente en espera en un estado cerrado, ya que no se pueden programar hasta que cumplan las condiciones requeridas. Unidades: recuento Estadísticas válidas: Sum
`apiserver_request_total`	El número de solicitudes HTTP hechas en todos los servidores de API del clúster. Unidades: recuento Estadísticas válidas: Sum
`apiserver_request_total_4XX`	El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron códigos de estado `4XX` (error del cliente). Unidades: recuento Estadísticas válidas: Sum
`apiserver_request_total_429`	El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron un código de estado `429`, que se produce cuando los clientes superan los límites de umbrales de frecuencia. Unidades: recuento Estadísticas válidas: Sum
`apiserver_request_total_5XX`	El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron códigos de estado `5XX` (error del servidor). Unidades: recuento Estadísticas válidas: Sum
`apiserver_request_total_LIST_PODS`	El número de solicitudes pods `LIST` hechas a todos los servidores de API del clúster. Unidades: recuento Estadísticas válidas: Sum
`apiserver_request_duration_seconds_PUT_P99`	El percentil 99 de latencia de las solicitudes `PUT` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `PUT`. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_request_duration_seconds_PATCH_P99`	El percentil 99 de latencia de las solicitudes `PATCH` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `PATCH`. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_request_duration_seconds_POST_P99`	El percentil 99 de latencia de las solicitudes `POST` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `POST`. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_request_duration_seconds_GET_P99`	El percentil 99 de latencia de las solicitudes `GET` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `GET`. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_request_duration_seconds_LIST_P99`	El percentil 99 de latencia de las solicitudes `LIST` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `LIST`. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_request_duration_seconds_DELETE_P99`	El percentil 99 de latencia de las solicitudes `DELETE` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `DELETE`. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_current_inflight_requests_MUTATING`	El número de solicitudes mutantes (`POST`, `PUT`, `DELETE`, `PATCH`) que se están procesando actualmente en todos los servidores de API del clúster. Esta métrica representa las solicitudes en tránsito y que aún no se han procesado. Unidades: recuento Estadísticas válidas: Sum
`apiserver_current_inflight_requests_READONLY`	El número de solicitudes de solo lectura (`GET`, `LIST`) que se están procesando actualmente en todos los servidores de API del clúster. Esta métrica representa las solicitudes en tránsito y que aún no se han procesado. Unidades: recuento Estadísticas válidas: Sum
`apiserver_admission_webhook_request_total`	El número de solicitudes de webhook de admisión hechas en todos los servidores de API del clúster. Unidades: recuento Estadísticas válidas: Sum
`apiserver_admission_webhook_request_total_ADMIT`	El número de solicitudes mutantes de webhook de admisión hechas en todos los servidores de API del clúster. Unidades: recuento Estadísticas válidas: Sum
`apiserver_admission_webhook_request_total_VALIDATING`	El número de solicitudes de validación de webhook de admisión hechas en todos los servidores de API del clúster. Unidades: recuento Estadísticas válidas: Sum
`apiserver_admission_webhook_rejection_count`	El número de solicitudes de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron. Unidades: recuento Estadísticas válidas: Sum
`apiserver_admission_webhook_rejection_count_ADMIT`	El número de solicitudes mutantes de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron. Unidades: recuento Estadísticas válidas: Sum
`apiserver_admission_webhook_rejection_count_VALIDATING`	El número de solicitudes de validación de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron. Unidades: recuento Estadísticas válidas: Sum
`apiserver_admission_webhook_admission_duration_seconds`	El percentil 99 de latencia de las solicitudes de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes de webhook de admisión de terceros. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99`	El percentil 99 de latencia de las solicitudes mutantes de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes mutantes de webhook de admisión de terceros. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99`	El percentil 99 de latencia de las solicitudes de validación de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes de validación de webhook de admisión de terceros. Unidades: segundos Estadísticas válidas: Promedio
`apiserver_storage_size_bytes`	El tamaño físico en bytes del archivo de base de datos de almacenamiento etcd utilizado por los servidores de API del clúster. Esta métrica representa el espacio real en disco asignado al almacenamiento. Unidades: bytes Estadísticas válidas: Máximo

Amazon CloudWatch Observability Operator

Observabilidad de Amazon CloudWatch recopila datos de rastreo, métricas y registros en tiempo real. Los envía a Amazon CloudWatch y AWS X-Ray. Puede instalar este complemento para habilitar tanto CloudWatch Application Signals como CloudWatch Container Insights con una observabilidad mejorada para Amazon EKS. Esto le ayuda a monitorear el estado y el rendimiento de su infraestructura y aplicaciones en contenedores. El operador de observabilidad de Amazon CloudWatch está diseñado para instalar y configurar los componentes necesarios.

Amazon EKS admite el operador de observabilidad de CloudWatch como complemento de Amazon EKS. El complemento permite Información de contenedores en los nodos de trabajo de Linux y Windows del clúster. Para activar Información de contenedores en Windows, la versión del complemento de Amazon EKS debe ser 1.5.0 o posterior. Actualmente, CloudWatch Application Signals no es compatible con Amazon EKS en Windows.

Los siguientes temas describen cómo comenzar a utilizar el operador de observabilidad de CloudWatch para el clúster de Amazon EKS.

Para obtener instrucciones sobre la instalación de este complemento, consulte Instalación del agente de CloudWatch con el complemento de EKS de observabilidad de Amazon CloudWatch o el gráfico de Helm en la Guía del usuario de Amazon CloudWatch.
Para obtener más información sobre CloudWatch Application Signals, consulte Application Signals en la Guía del usuario de Amazon CloudWatch.
Para obtener más información sobre Container Insights, consulte Using Container Insights en la Guía del usuario de Amazon CloudWatch.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Plano de control

Registros del plano de control

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Supervisión de datos de clústeres con Amazon CloudWatch

Métricas básicas en Amazon CloudWatch

Amazon CloudWatch Observability Operator

En esta página

¿Le ha servido de ayuda esta página?

Tema siguiente:

Tema anterior:

¿Necesita ayuda?