Métricas de Amazon EKS e Información de contenedores de Kubernetes con observabilidad mejorada - Amazon CloudWatch

Métricas de Amazon EKS e Información de contenedores de Kubernetes con observabilidad mejorada

En las siguientes tablas, se muestran las métricas y las dimensiones que recopila Información de contenedores con observabilidad mejorada para Amazon EKS y Kubernetes. Estas métricas se encuentran en el espacio de nombres ContainerInsights. Para obtener más información, consulte Métricas.

Si no ve ninguna métrica de Información de contenedores con observabilidad mejorada en la consola, asegúrese de haber completado la configuración de Información de contenedores con observabilidad mejorada. Las métricas no aparecen antes de haber configurado por completo Información de contenedores con observabilidad mejorada. Para obtener más información, consulte Configuración de Información de contenedores.

Si utiliza la versión 1.5.0 o posterior del complemento de Amazon EKS o la versión 1.300035.0 del agente CloudWatch, la mayoría de las métricas que se muestran en la siguiente tabla se recopilan para los nodos de Linux y Windows. Consulte la columna Nombre de métrica de la tabla para ver qué métricas no se recopilan para Windows.

Con la versión anterior de Información de contenedores, que ofrece métricas agregadas a nivel del clúster y del servicio, las métricas se cargan como métricas personalizadas. Con Información de contenedores, con una observabilidad mejorada para Amazon EKS, las métricas de Información de contenedores se cobran por observación en lugar de cobrarse por métrica almacenada o registro ingerido. Para obtener más información sobre los precios de CloudWatch, consulte Precios de Amazon CloudWatch.

nota

En Windows, las métricas de red como pod_network_rx_bytes y pod_network_tx_bytes no se recopilan para los contenedores de procesos del host.

Nombre de métrica Dimensiones Descripción

cluster_failed_node_count

ClusterName

El número de nodos de trabajo con errores en el clúster. Se considera que un nodo ha fallado si está sufriendo de cualquiera de las condiciones de nodo. Para obtener más información, consulte Conditions (Condiciones) en la documentación de Kubernetes.

cluster_node_count

ClusterName

El número total de nodos de trabajo en el clúster.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

El número de pods que se ejecutan por espacio de nombres en el recurso que se especifica mediante las dimensiones que está utilizando.

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

El número máximo de unidades de CPU que se pueden asignar a un único nodo en este clúster.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

El porcentaje de unidades de CPU que están reservadas para los componentes de nodos, como kubelet, kube-proxy y Docker.

Fórmula: node_cpu_request / node_cpu_limit

nota

node_cpu_request no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

El número de unidades de CPU que se utilizan en los nodos del clúster.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

El porcentaje total de unidades de CPU que se utilizan en los nodos del clúster.

Fórmula: node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

El porcentaje total de capacidad de sistema de archivos que se utiliza en los nodos del clúster.

Fórmula: node_filesystem_usage / node_filesystem_capacity

nota

node_filesystem_usage y node_filesystem_capacity no se informan directamente como métricas, sino que son campos en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

La cantidad máxima de memoria, en bytes, que se puede asignar a un único nodo en este clúster.

node_filesystem_inodes

No está disponible en Windows.

ClusterName

ClusterName, InstanceId, NodeName

La cantidad total de inodos (utilizados y no utilizados) en un nodo.

node_filesystem_inodes_free

No está disponible en Windows.

ClusterName

ClusterName, InstanceId, NodeName

La cantidad total de inodos no utilizados en un nodo.

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

El porcentaje de memoria que se utiliza actualmente en los nodos del clúster.

Fórmula: node_memory_request / node_memory_limit

nota

node_memory_request no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

El porcentaje de memoria que utiliza actualmente el nodo o los nodos. Es el porcentaje de uso de memoria de nodo sobre la limitación de memoria de nodo.

Fórmula: node_memory_working_set / node_memory_limit.

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

La cantidad de memoria, en bytes, que se utiliza en el conjunto de trabajo de los nodos del clúster.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

El número total de bytes por segundo transmitidos y recibidos a través de la red por nodo en un clúster.

Fórmula: node_network_rx_bytes + node_network_tx_bytes

nota

node_network_rx_bytes y node_network_tx_bytes no se informan directamente como métricas, sino que son campos en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

El número de contenedores en ejecución por nodo en un clúster.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

El número de pods en ejecución por nodo en un clúster.

node_status_allocatable_pods

ClusterName

ClusterName, InstanceId, NodeName

La cantidad de pods que se pueden asignar a un nodo en función de sus recursos asignables, que se define como el resto de la capacidad de un nodo después de tener en cuenta las reservas de daemons del sistema y los umbrales de expulsión forzoso.

node_status_capacity_pods

ClusterName

ClusterName, InstanceId, NodeName

Cantidad de pods que se pueden asignar a un nodo en función de su capacidad.

node_status_condition_ready

ClusterName

ClusterName, InstanceId, NodeName

Indica si la condición de estado Ready del nodo es verdadera para los nodos de Amazon EC2.

node_status_condition_memory_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indica si la condición de estado MemoryPressure del nodo es verdadera.

node_status_condition_pid_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indica si la condición de estado PIDPressure del nodo es verdadera.

node_status_condition_disk_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indica si la condición de estado OutOfDisk del nodo es verdadera.

node_status_condition_unknown

ClusterName

ClusterName, InstanceId, NodeName

Indica si alguna de las condiciones de estado del nodo es Desconocida.

node_interface_network_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

La cantidad de paquetes que una interfaz de red del nodo recibió y luego descartó.

node_interface_network_tx_dropped

ClusterName

ClusterName, InstanceId, NodeName

La cantidad de paquetes que debían transmitirse pero que una interfaz de red del nodo descartó.

node_diskio_io_service_bytes_total

No está disponible en Windows.

ClusterName

ClusterName, InstanceId, NodeName

La cantidad total de bytes transferidos por todas las operaciones de E/S del nodo.

node_diskio_io_serviced_total

No está disponible en Windows.

ClusterName

ClusterName, InstanceId, NodeName

La cantidad total de operaciones de E/S del nodo.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

La capacidad de la CPU reservada por pod en un clúster.

Fórmula: pod_cpu_request / node_cpu_limit

nota

pod_cpu_request no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

El porcentaje de unidades de CPU que utilizan los pods.

Fórmula: pod_cpu_usage_total / node_cpu_limit

nota

pod_cpu_usage_total no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

El porcentaje de unidades de CPU utilizadas por pods en relación con el límite de pods.

Fórmula: pod_cpu_usage_total / pod_cpu_limit

nota

pod_cpu_usage_total y pod_cpu_limit no se informan directamente como métricas, sino que son campos en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

El porcentaje de memoria reservada para los pods.

Fórmula: pod_memory_request / node_memory_limit

nota

pod_memory_request no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

El porcentaje de memoria que utiliza actualmente el pod o los pods.

Fórmula: pod_memory_working_set / node_memory_limit

nota

pod_memory_working_set no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

El porcentaje de memoria utilizada por los pods en relación con el límite de pods. Si algún contenedor del pod no tiene definido un límite de memoria, esta métrica no aparecerá.

Fórmula: pod_memory_working_set / pod_memory_limit

nota

pod_memory_working_set no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

El número de bytes por segundo que se están recibiendo a través de la red por el pod.

Fórmula: sum(pod_interface_network_rx_bytes)

nota

pod_interface_network_rx_bytes no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

El número de bytes por segundo que se están transmitiendo a través de la red por el pod.

Fórmula: sum(pod_interface_network_tx_bytes)

nota

pod_interface_network_tx_bytes no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_cpu_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Las solicitudes de la CPU para el pod.

Fórmula: sum(container_cpu_request)

nota

pod_cpu_request no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_memory_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Las solicitudes de memoria para el pod.

Fórmula: sum(container_memory_request)

nota

pod_memory_request no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_cpu_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

El límite de la CPU definido para los contenedores del pod. Si algún contenedor del pod no tiene definido un límite de la CPU, esta métrica no aparecerá.

Fórmula: sum(container_cpu_limit)

nota

pod_cpu_limit no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_memory_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

El límite de memoria definido para los contenedores del pod. Si algún contenedor del pod no tiene definido un límite de memoria, esta métrica no aparecerá.

Fórmula: sum(container_memory_limit)

nota

pod_cpu_limit no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

pod_status_failed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que todos los contenedores del pod terminaron y que al menos un contenedor terminó con un estado distinto de cero o lo canceló el sistema.

pod_status_ready

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que todos los contenedores del pod están listos y alcanzaron el estado de ContainerReady.

pod_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que todos los contenedores del pod están en ejecución.

pod_status_scheduled

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que el pod se programó para un nodo.

pod_status_unknown

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que no se puede obtener el estado del pod.

pod_status_pending

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que el clúster aceptó el pod, pero que uno o más de los contenedores aún no están listos.

pod_status_succeeded

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica que todos los contenedores del pod terminaron correctamente y no se reiniciarán.

pod_number_of_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores definido en la especificación del pod.

pod_number_of_running_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que se encuentran actualmente en el estado Running.

pod_container_status_terminated

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que se encuentran en el estado Terminated.

pod_container_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que se encuentran en el estado Running.

pod_container_status_waiting

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que se encuentran en el estado Waiting.

pod_container_status_waiting_reason_crash_loop_back_off

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que están pendientes debido a un error CrashLoopBackOff, en el que un contenedor repetidamente no se puede iniciar.

pod_container_status_waiting_reason_create_container_config_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que están pendientes con la razón CreateContainerConfigError. Esto se debe a un error al crear la configuración del contenedor.

pod_container_status_waiting_reason_create_container_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que están pendientes con la razón CreateContainerError debido a un error al crear el contenedor.

pod_container_status_waiting_reason_image_pull_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica el número de contenedores del pod que están pendientes gracias a ErrImagePull, ImagePullBackOff o InvalidImageName. Estas situaciones se deben a un error al extraer la imagen del contenedor.

pod_container_status_waiting_reason_oom_killer

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que están en el estado Terminated

gracias a que se está agotando la memoria (OOM inactivo).

pod_container_status_waiting_reason_start_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica la cantidad de contenedores del pod que están pendientes con la razón StartError debido a un error al iniciar el contenedor.

pod_interface_network_rx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

La cantidad de paquetes que esta interfaz de red recibió y luego descartó para el pod.

pod_interface_network_tx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

La cantidad de paquetes que debían transmitirse pero que se descartaron para el pod.

container_cpu_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

El porcentaje de unidades de CPU que utiliza el contenedor.

Fórmula: container_cpu_usage_total / node_cpu_limit

nota

container_cpu_utilization no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

container_cpu_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

El porcentaje de unidades de CPU que utiliza el contenedor en relación con el límite de pods. Si algún contenedor no tiene definido un límite de la CPU, esta métrica no aparecerá.

Fórmula: container_cpu_usage_total / container_cpu_limit

nota

container_cpu_utilization_over_container_limit no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

container_memory_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

El porcentaje de unidades de memoria que utiliza el contenedor.

Fórmula: container_memory_working_set / node_memory_limit

nota

container_memory_utilization no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

container_memory_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

El porcentaje de unidades de memoria que utiliza el contenedor en relación con el límite del contenedor. Si algún contenedor no tiene definido un límite de memoria, esta métrica no aparecerá.

Fórmula: container_memory_working_set / container_memory_limit

nota

container_memory_utilization_over_container_limit no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.

container_memory_failures_total

No está disponible en Windows.

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La cantidad de errores de asignación de memoria que experimentó el contenedor.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

El número total de reinicios del contenedor en un pod.

service_number_of_running_pods

Servicio, Namespace, ClusterName

ClusterName

El número de pods que ejecutan el servicio o servicios en el clúster.

replicas_desired

ClusterName

PodName, Namespace, ClusterName

La cantidad de pods deseada para una carga de trabajo, tal como se define en la especificación de la carga de trabajo.

replicas_ready

ClusterName

PodName, Namespace, ClusterName

La cantidad de pods de una carga de trabajo que alcanzó el estado listo.

status_replicas_available

ClusterName

PodName, Namespace, ClusterName

La cantidad de pods disponibles para una carga de trabajo. Un pod está disponible cuando está listo para cumplir con los minReadySeconds definidos en la especificación de la carga de trabajo.

status_replicas_unavailable

ClusterName

PodName, Namespace, ClusterName

La cantidad de pods de una carga de trabajo que no están disponibles. Un pod está disponible cuando está listo para cumplir con los minReadySeconds definidos en la especificación de la carga de trabajo. Los pods no están disponibles si no cumplen este criterio.

apiserver_storage_objects

ClusterName

ClusterName, resource

La cantidad de objetos almacenados en etcd en el momento de la última comprobación.

apiserver_request_total

ClusterName

ClusterName, code, verb

La cantidad total de solicitudes de la API al servidor de la API de Kubernetes.

apiserver_request_duration_seconds

ClusterName

ClusterName, verb

La latencia de respuesta a las solicitudes de la API al servidor de la API de Kubernetes.

apiserver_admission_controller_admission_duration_seconds

ClusterName

ClusterName, operation

La latencia del controlador de admisión en segundos. Un controlador de admisión es un código que intercepta las solicitudes al servidor de la API de Kubernetes.

rest_client_request_duration_seconds

ClusterName

ClusterName, operation

La latencia de respuesta que experimentan los clientes que llaman al servidor de la API de Kubernetes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.

rest_client_requests_total

ClusterName

ClusterName, code, method

La cantidad total de solicitudes de la API al servidor de la API de Kubernetes que hacen los clientes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.

etcd_request_duration_seconds

ClusterName

ClusterName, operation

La latencia de respuesta de las llamadas de la API a Etcd. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.

apiserver_storage_size_bytes

ClusterName

ClusterName, endpoint

El tamaño del archivo de base de datos de almacenamiento asignado físicamente en bytes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.

apiserver_longrunning_requests

ClusterName

ClusterName, resource

La cantidad de solicitudes activas de larga duración al servidor de la API de Kubernetes.

apiserver_current_inflight_requests

ClusterName

ClusterName, request_kind

La cantidad de solicitudes que procesa el servidor de la API de Kubernetes.

apiserver_admission_webhook_admission_duration_seconds

ClusterName

ClusterName, name

La latencia del webhook de admisión en segundos. Los webhooks de admisión son devoluciones de llamadas HTTP que reciben las solicitudes de admisión y hacen algo con ellas.

apiserver_admission_step_admission_duration_seconds

ClusterName

ClusterName, operation

La latencia del subpaso de admisión en segundos.

apiserver_requested_deprecated_apis

ClusterName

ClusterName, group

La cantidad de solicitudes a API obsoletas en el servidor de la API de Kubernetes.

apiserver_request_total_5XX

ClusterName

ClusterName, code, verb

La cantidad de solicitudes al servidor de la API de Kubernetes a las que se respondió con un código de respuesta HTTP 5XX.

apiserver_storage_list_duration_seconds

ClusterName

ClusterName, resource

La latencia de respuesta de los objetos listados de Etcd. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.

apiserver_current_inqueue_requests

ClusterName

ClusterName, request_kind

La cantidad de solicitudes en cola que colocó el servidor de la API de Kubernetes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.

apiserver_flowcontrol_rejected_requests_total

ClusterName

ClusterName, reason

La cantidad de solicitudes rechazadas por el Subsistema de prioridad y equidad de la API. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.

Métricas de GPU de NVIDIA

A partir de la versión 1.300034.0 del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila las métricas de GPU de NVIDIA de las cargas de trabajo de EKS de forma predeterminada. El agente de CloudWatch debe instalarse con la versión v1.3.0-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Estas métricas de GPU de NVIDIA que se recopilan se muestran en la tabla de esta sección.

Para que Información de contenedores recopile métricas de GPU de NVIDIA, debe cumplir los siguientes requisitos previos:

Para dejar de recopilar métricas de GPU de NVIDIA, establezca la opción accelerated_compute_metrics del inicio del archivo de configuración del agente de CloudWatch como false. Para obtener más información y un ejemplo de configuración de desactivación, consulte Configuraciones adicionales (Opcional).

Nombre de métrica Dimensiones Descripción

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

El tamaño total del búfer del marco, en bytes, en las GPU asignadas al contenedor.

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Los bytes del búfer del marco que se usan en las GPU asignadas al contenedor.

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

El porcentaje del búfer del marco que se usa en las GPU asignadas al contenedor.

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

El consumo de energía en vatios de las GPU asignadas al contenedor.

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La temperatura en grados centígrados de las GPU asignadas al contenedor.

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

El porcentaje de uso de las GPU asignadas al contenedor.

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

El tamaño total del búfer del marco, en bytes, en las GPU asignadas al nodo.

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Los bytes del búfer del marco que se usan en las GPU asignadas al nodo.

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

El porcentaje del búfer del marco que se usa en las GPU asignadas al nodo.

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

El consumo de energía en vatios de las GPU asignadas al nodo.

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La temperatura en grados centígrados de las GPU asignadas al nodo.

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

El porcentaje de uso de las GPU asignadas al nodo.

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

El tamaño total del búfer del marco, en bytes, en las GPU asignadas al pod.

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Los bytes del búfer del marco que se usan en las GPU asignadas al pod.

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

El porcentaje del búfer del marco que se usa en las GPU asignadas al pod.

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

El consumo de energía en vatios de las GPU asignadas al pod.

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La temperatura en grados centígrados de las GPU asignadas al pod.

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

El porcentaje de uso de las GPU asignadas al pod.

Métricas de AWS Neuron para AWS Trainium y AWS Inferentia

A partir de la versión 1.300036.0 del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila métricas de computación aceleradas de los aceleradores de AWS Trainium y AWS Inferentia de forma predeterminada. El agente de CloudWatch debe instalarse con la versión v1.5.0-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información acerca de AWS Trainium, consulte AWS Trainium. Para obtener más información acerca de AWS Inferentia, consulte AWS Inferentia.

Para que Información de contenedores recopile métricas de AWS Neuron, debe cumplir los siguientes requisitos previos:

  • Debe utilizar Información de contenedores con observabilidad mejorada para Amazon EKS, con la versión v1.5.0-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch.

  • El controlador Neuron debe estar instalado en los nodos del clúster.

  • El complemento del dispositivo Neuron debe estar instalado en el clúster. Por ejemplo, las AMI aceleradas optimizadas para Amazon EKS se crearon con los componentes necesarios.

Las métricas que se recopilan se muestran en la tabla de esta sección. Las métricas se recopilan para AWS Trainium, AWS Inferentia y AWS Inferentia2.

El agente CloudWatch recopila estas métricas de Neuron Monitor y lleva a cabo la correlación de recursos de Kubernetes necesaria para entregar las métricas a nivel de pod y contenedor.

Nombre de métrica Dimensiones Descripción

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Utilización de NeuronCore, durante el período de captura del NeuronCore asignado al contenedor.

Unidad: porcentaje

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al contenedor (o a los pesos durante la inferencia).

Unidades: bytes

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al contenedor.

Unidades: bytes

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al contenedor. Esta región de memoria está reservada para los modelos.

Unidades: bytes

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al contenedor.

Unidades: bytes

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al contenedor.

Unidades: bytes

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad total de memoria que NeuronCore utiliza y que se asigna al contenedor.

Unidades: bytes

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

El número de eventos de ECC corregidos y no corregidos para la SRAM integrada en el chip y la memoria del dispositivo Neuron del nodo.

Unidad: recuento

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La utilización de NeuronCore durante el período de captura de NeuronCore asignada al pod.

Unidad: porcentaje

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al pod (o a los pesos durante la inferencia).

Unidades: bytes

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al pod.

Unidades: bytes

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al pod. Esta región de memoria está reservada para los modelos.

Unidades: bytes

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al pod.

Unidades: bytes

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al pod.

Unidades: bytes

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad total de memoria que NeuronCore utiliza y que se asigna al pod.

Unidades: bytes

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

La cantidad de eventos de ECC corregidos y no corregidos para la SRAM en el chip y la memoria del dispositivo Neuron asignada a un pod.

Unidades: bytes

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La utilización de NeuronCore durante el período de captura de NeuronCore asignada al nodo.

Unidad: porcentaje

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al nodo (o a los pesos durante la inferencia).

Unidades: bytes

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al nodo.

Unidades: bytes

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al nodo. Esta es una región de memoria reservada para los modelos.

Unidades: bytes

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al nodo.

Unidades: bytes

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al nodo.

Unidades: bytes

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad total de memoria que NeuronCore utiliza y que se asigna al nodo.

Unidades: bytes

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

El número total de errores de ejecución del nodo. El agente de CloudWatch lo calcula agregando los errores de los siguientes tipos: generic, numerical, transient, model, runtime y hardware

Unidad: recuento

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

El uso total de memoria del dispositivo Neuron en bytes en el nodo.

Unidades: bytes

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

En segundos, la latencia para una ejecución en el nodo medida por el tiempo de ejecución de Neuron.

Unidad: segundos

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

El número de eventos de ECC corregidos y no corregidos para la SRAM integrada en el chip y la memoria del dispositivo Neuron del nodo.

Unidad: recuento

Métricas de AWS Elastic Fabric Adapter (EFA)

A partir de la versión 1.300037.0 del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila métricas de AWS Elastic Fabric Adapter (EFA) de clústeres de Amazon EKS en instancias de Linux. El agente de CloudWatch debe instalarse con la versión v1.5.2-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información sobre AWS Elastic Fabric Adapter (EFA), consulte Elastic Fabric Adapter.

Para que Información de contenedores recopile métricas de AWS Elastic Fabric Adapter, debe cumplir los siguientes requisitos previos:

  • Debe utilizar Información de contenedores con observabilidad mejorada para Amazon EKS, con la versión v1.5.2-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch.

  • El complemento del dispositivo EFA debe estar instalado en el clúster. Para obtener más información, consulte aws-efa-k8s-device-plugin en GitHub.

Las métricas que se recopilan se enumeran en la siguiente tabla.

Nombre de métrica Dimensiones Descripción

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor.

Unidad: bytes/segundo

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al contenedor.

Unidad: bytes/segundo

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al contenedor.

Unidad: recuento/segundo

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al contenedor mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor durante operaciones de escritura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod.

Unidad: bytes/segundo

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod.

Unidad: bytes/segundo

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al pod.

Unidad: recuento/segundo

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod durante operaciones de escritura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo.

Unidad: bytes/segundo

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al nodo.

Unidad: bytes/segundo

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al nodo.

Unidad: recuento/segundo

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo durante operaciones de escritura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

Métricas de Amazon SageMaker AI HyperPod

A partir de la versión v2.0.1-eksbuild.1 del complemento de observabilidad de EKS de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila automáticamente métricas de Amazon SageMaker AI HyperPod de clústeres de Amazon EKS. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información sobre Amazon SageMaker AI HyperPod, consulte Amazon SageMaker AI HyperPod.

Las métricas que se recopilan se enumeran en la siguiente tabla.

Nombre de métrica Dimensiones Descripción

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como Unschedulable. Esto significa que el nodo está llevando a cabo comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo.

Unidad: recuento

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como Schedulable. Esto significa que el nodo ha superado las comprobaciones de estado básicas o exhaustivas y está disponible para ejecutar cargas de trabajo.

Unidad: recuento

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Indica si HyperPod ha etiquetado un nodo como UnschedulablePendingReplacement. Esto significa que el nodo no ha superado las comprobaciones de estado exhaustivas o las comprobaciones del agente de supervisión del estado y tiene que reemplazarse.

Si la recuperación automática de nodos está habilitada, Amazon SageMaker AI HyperPod reemplazará automáticamente el nodo.

Unidad: recuento

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como UnschedulablePendingReboot. Esto significa que el nodo está haciendo comprobaciones de estado exhaustivas y es necesario reiniciarlo.

Si la recuperación automática de nodos está habilitada, Amazon SageMaker AI HyperPod reiniciará automáticamente el nodo.

Unidad: recuento