Métricas de GPU de NVIDIA Métricas de AWS Neuron para AWS Trainium y AWS Inferentia Métricas de AWS Elastic Fabric Adapter (EFA) Métricas de Amazon SageMaker AI HyperPod

Métricas de Información de contenedores de Kubernetes y de Amazon EKS

En las siguientes tablas, se muestran las métricas y las dimensiones que recopila Información de contenedores para Amazon EKS y Kubernetes. Estas métricas se encuentran en el espacio de nombres ContainerInsights. Para obtener más información, consulte Métricas.

Si no ve ninguna métrica de Información de contenedores en la consola, asegúrese de haber completado la configuración de Información de contenedores. Las métricas no aparecen antes de haber configurado por completo Información de contenedores. Para obtener más información, consulte Configuración de Información de contenedores.

Si utiliza la versión 1.5.0 o posterior del complemento de Amazon EKS o la versión 1.300035.0 del agente CloudWatch, la mayoría de las métricas que se muestran en la siguiente tabla se recopilan para los nodos de Linux y Windows. Consulte la columna Nombre de métrica de la tabla para ver qué métricas no se recopilan para Windows.

Con la versión original de Información de contenedores, las métricas recopiladas se cobran como métricas personalizadas. Con Información de contenedores, con una observabilidad mejorada para Amazon EKS, las métricas de Información de contenedores se cobran por observación en lugar de cobrarse por métrica almacenada o registro ingerido. Para obtener más información sobre los precios de CloudWatch, consulte Precios de Amazon CloudWatch.

nota

En Windows, las métricas de red como pod_network_rx_bytes y pod_network_tx_bytes no se recopilan para los contenedores de procesos del host.

Nombre de métrica	Dimensiones con cualquier versión de Información de contenedores	Dimensiones adicionales con Información de contenedores con observabilidad mejorada para Amazon EKS	Descripción
`cluster_failed_node_count`	`ClusterName`		El número de nodos de trabajo con errores en el clúster. Se considera que un nodo ha fallado si está sufriendo de cualquiera de las condiciones de nodo. Para obtener más información, consulte Conditions (Condiciones) en la documentación de Kubernetes.
`cluster_node_count`	`ClusterName`		El número total de nodos de trabajo en el clúster.
`namespace_number_of_running_pods`	`Namespace` `ClusterName` `ClusterName`		El número de pods que se ejecutan por espacio de nombres en el recurso que se especifica mediante las dimensiones que está utilizando.
`node_cpu_limit`	`ClusterName`	`ClusterName`, `InstanceId`, `NodeName`	El número máximo de unidades de CPU que se pueden asignar a un único nodo en este clúster.
`node_cpu_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		El porcentaje de unidades de CPU que están reservadas para los componentes de nodos, como kubelet, kube-proxy y Docker. Fórmula: `node_cpu_request / node_cpu_limit` nota `node_cpu_request` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`node_cpu_usage_total`	`ClusterName`	`ClusterName`, `InstanceId`, `NodeName`	El número de unidades de CPU que se utilizan en los nodos del clúster.
`node_cpu_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		El porcentaje total de unidades de CPU que se utilizan en los nodos del clúster. Fórmula: `node_cpu_usage_total / node_cpu_limit`
`node_filesystem_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		El porcentaje total de capacidad de sistema de archivos que se utiliza en los nodos del clúster. Fórmula: `node_filesystem_usage / node_filesystem_capacity` nota `node_filesystem_usage` y `node_filesystem_capacity` no se informan directamente como métricas, sino que son campos en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`node_memory_limit`	`ClusterName`	`ClusterName`, `InstanceId`, `NodeName`	La cantidad máxima de memoria, en bytes, que se puede asignar a un único nodo en este clúster.
`node_filesystem_inodes` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows.		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	La cantidad total de inodos (utilizados y no utilizados) en un nodo.
`node_filesystem_inodes_free` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows.		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	La cantidad total de inodos no utilizados en un nodo.
`node_memory_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		El porcentaje de memoria que se utiliza actualmente en los nodos del clúster. Fórmula: `node_memory_request / node_memory_limit` nota `node_memory_request` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`node_memory_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		El porcentaje de memoria que utiliza actualmente el nodo o los nodos. Es el porcentaje de uso de memoria de nodo sobre la limitación de memoria de nodo. Fórmula: `node_memory_working_set / node_memory_limit`.
`node_memory_working_set`	`ClusterName`	`ClusterName`, `InstanceId`, `NodeName`	La cantidad de memoria, en bytes, que se utiliza en el conjunto de trabajo de los nodos del clúster.
`node_network_total_bytes`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		El número total de bytes por segundo transmitidos y recibidos a través de la red por nodo en un clúster. Fórmula: `node_network_rx_bytes + node_network_tx_bytes` nota `node_network_rx_bytes` y `node_network_tx_bytes` no se informan directamente como métricas, sino que son campos en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`node_number_of_running_containers`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		El número de contenedores en ejecución por nodo en un clúster.
`node_number_of_running_pods`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		El número de pods en ejecución por nodo en un clúster.
`node_status_allocatable_pods` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	La cantidad de pods que se pueden asignar a un nodo en función de sus recursos asignables, que se define como el resto de la capacidad de un nodo después de tener en cuenta las reservas de daemons del sistema y los umbrales de expulsión forzoso.
`node_status_capacity_pods` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Cantidad de pods que se pueden asignar a un nodo en función de su capacidad.
`node_status_condition_ready` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si la condición de estado `Ready` del nodo es verdadera para los nodos de Amazon EC2.
`node_status_condition_memory_pressure` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si la condición de estado `MemoryPressure` del nodo es verdadera.
`node_status_condition_pid_pressure` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si la condición de estado `PIDPressure` del nodo es verdadera.
`node_status_condition_disk_pressure` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si la condición de estado `OutOfDisk` del nodo es verdadera.
`node_status_condition_unknown` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si alguna de las condiciones de estado del nodo es Desconocida.
`node_interface_network_rx_dropped` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	La cantidad de paquetes que una interfaz de red del nodo recibió y luego descartó.
`node_interface_network_tx_dropped` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	La cantidad de paquetes que debían transmitirse pero que una interfaz de red del nodo descartó.
`node_diskio_io_service_bytes_total` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows.		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	La cantidad total de bytes transferidos por todas las operaciones de E/S del nodo.
`node_diskio_io_serviced_total` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows.		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	La cantidad total de operaciones de E/S del nodo.
`pod_cpu_reserved_capacity`	`PodName`, Espacio de nombres, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	La capacidad de la CPU reservada por pod en un clúster. Fórmula: `pod_cpu_request / node_cpu_limit` nota `pod_cpu_request` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_cpu_utilization`	`PodName`, Espacio de nombres, `ClusterName` Espacio de nombres, `ClusterName` Servicios, Espacio de nombres, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	El porcentaje de unidades de CPU que utilizan los pods. Fórmula: `pod_cpu_usage_total / node_cpu_limit` nota `pod_cpu_usage_total` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_cpu_utilization_over_pod_limit`	`PodName`, Espacio de nombres, `ClusterName` Espacio de nombres, `ClusterName` Servicios, Espacio de nombres, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	El porcentaje de unidades de CPU utilizadas por pods en relación con el límite de pods. Fórmula: `pod_cpu_usage_total / pod_cpu_limit` nota `pod_cpu_usage_total` y `pod_cpu_limit` no se informan directamente como métricas, sino que son campos en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_memory_reserved_capacity`	`PodName`, Espacio de nombres, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	El porcentaje de memoria reservada para los pods. Fórmula: `pod_memory_request / node_memory_limit` nota `pod_memory_request` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_memory_utilization`	`PodName`, Espacio de nombres, `ClusterName` Espacio de nombres, `ClusterName` Servicios, Espacio de nombres, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	El porcentaje de memoria que utiliza actualmente el pod o los pods. Fórmula: `pod_memory_working_set / node_memory_limit` nota `pod_memory_working_set` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_memory_utilization_over_pod_limit`	`PodName`, Espacio de nombres, `ClusterName` Espacio de nombres, `ClusterName` Servicios, Espacio de nombres, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	El porcentaje de memoria utilizada por los pods en relación con el límite de pods. Si algún contenedor del pod no tiene definido un límite de memoria, esta métrica no aparecerá. Fórmula: `pod_memory_working_set / pod_memory_limit` nota `pod_memory_working_set` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_network_rx_bytes`	`PodName`, Espacio de nombres, `ClusterName` Espacio de nombres, `ClusterName` Servicios, Espacio de nombres, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	El número de bytes por segundo que se están recibiendo a través de la red por el pod. Fórmula: `sum(pod_interface_network_rx_bytes)` nota `pod_interface_network_rx_bytes` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_network_tx_bytes`	`PodName`, Espacio de nombres, `ClusterName` Espacio de nombres, `ClusterName` Servicios, Espacio de nombres, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	El número de bytes por segundo que se están transmitiendo a través de la red por el pod. Fórmula: `sum(pod_interface_network_tx_bytes)` nota `pod_interface_network_tx_bytes` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_cpu_request` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Las solicitudes de la CPU para el pod. Fórmula: `sum(container_cpu_request)` nota `pod_cpu_request` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_memory_request` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Las solicitudes de memoria para el pod. Fórmula: `sum(container_memory_request)` nota `pod_memory_request` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_cpu_limit` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	El límite de la CPU definido para los contenedores del pod. Si algún contenedor del pod no tiene definido un límite de la CPU, esta métrica no aparecerá. Fórmula: `sum(container_cpu_limit)` nota `pod_cpu_limit` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_memory_limit` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	El límite de memoria definido para los contenedores del pod. Si algún contenedor del pod no tiene definido un límite de memoria, esta métrica no aparecerá. Fórmula: `sum(container_memory_limit)` nota `pod_cpu_limit` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`pod_status_failed` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica que todos los contenedores del pod terminaron y que al menos un contenedor terminó con un estado distinto de cero o lo canceló el sistema.
`pod_status_ready` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica que todos los contenedores del pod están listos y alcanzaron el estado de `ContainerReady`.
`pod_status_running` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica que todos los contenedores del pod están en ejecución.
`pod_status_scheduled` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica que el pod se programó para un nodo.
`pod_status_unknown` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica que no se puede obtener el estado del pod.
`pod_status_pending` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica que el clúster aceptó el pod, pero que uno o más de los contenedores aún no están listos.
`pod_status_succeeded` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica que todos los contenedores del pod terminaron correctamente y no se reiniciarán.
`pod_number_of_containers` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores definido en la especificación del pod.
`pod_number_of_running_containers` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que se encuentran actualmente en el estado `Running`.
`pod_container_status_terminated` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que se encuentran en el estado `Terminated`.
`pod_container_status_running` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que se encuentran en el estado `Running`.
`pod_container_status_waiting` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que se encuentran en el estado `Waiting`.
`pod_container_status_waiting_reason_crash_loop_back_off` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que están pendientes debido a un error `CrashLoopBackOff`, en el que un contenedor repetidamente no se puede iniciar.
`pod_container_status_waiting_reason_create_container_config_error` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que están pendientes con la razón `CreateContainerConfigError`. Esto se debe a un error al crear la configuración del contenedor.
`pod_container_status_waiting_reason_create_container_error` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que están pendientes con la razón `CreateContainerError` debido a un error al crear el contenedor.
`pod_container_status_waiting_reason_image_pull_error` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica el número de contenedores del pod que están pendientes gracias a `ErrImagePull`, `ImagePullBackOff` o `InvalidImageName`. Estas situaciones se deben a un error al extraer la imagen del contenedor.
`pod_container_status_waiting_reason_oom_killer` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que están en el estado `Terminated` gracias a que se está agotando la memoria (OOM inactivo).
`pod_container_status_waiting_reason_start_error` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indica la cantidad de contenedores del pod que están pendientes con la razón `StartError` debido a un error al iniciar el contenedor.
`pod_interface_network_rx_dropped` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	La cantidad de paquetes que esta interfaz de red recibió y luego descartó para el pod.
`pod_interface_network_tx_dropped` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	La cantidad de paquetes que debían transmitirse pero que se descartaron para el pod.
`container_cpu_utilization` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	El porcentaje de unidades de CPU que utiliza el contenedor. Fórmula: `container_cpu_usage_total / node_cpu_limit` nota `container_cpu_utilization` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`container_cpu_utilization_over_container_limit` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	El porcentaje de unidades de CPU que utiliza el contenedor en relación con el límite de pods. Si algún contenedor no tiene definido un límite de la CPU, esta métrica no aparecerá. Fórmula: `container_cpu_usage_total / container_cpu_limit` nota `container_cpu_utilization_over_container_limit` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`container_memory_utilization` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	El porcentaje de unidades de memoria que utiliza el contenedor. Fórmula: `container_memory_working_set / node_memory_limit` nota `container_memory_utilization` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`container_memory_utilization_over_container_limit` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	El porcentaje de unidades de memoria que utiliza el contenedor en relación con el límite del contenedor. Si algún contenedor no tiene definido un límite de memoria, esta métrica no aparecerá. Fórmula: `container_memory_working_set / container_memory_limit` nota `container_memory_utilization_over_container_limit` no se informa directamente como una métrica, sino que es un campo en el registro de eventos del rendimiento. Para obtener más información, consulte Campos relevantes en eventos de registro de rendimiento para Amazon EKS y Kubernetes.
`container_memory_failures_total` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS. No está disponible en Windows.		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	La cantidad de errores de asignación de memoria que experimentó el contenedor.
`pod_number_of_container_restarts`	PodName, `Namespace`, `ClusterName`		El número total de reinicios del contenedor en un pod.
`service_number_of_running_pods`	Servicio, `Namespace`, `ClusterName` `ClusterName`		El número de pods que ejecutan el servicio o servicios en el clúster.
`replicas_desired` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`	La cantidad de pods deseada para una carga de trabajo, tal como se define en la especificación de la carga de trabajo.
`replicas_ready` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`	La cantidad de pods de una carga de trabajo que alcanzó el estado listo.
`status_replicas_available` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`	La cantidad de pods disponibles para una carga de trabajo. Un pod está disponible cuando está listo para cumplir con los `minReadySeconds` definidos en la especificación de la carga de trabajo.
`status_replicas_unavailable` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`	La cantidad de pods de una carga de trabajo que no están disponibles. Un pod está disponible cuando está listo para cumplir con los `minReadySeconds` definidos en la especificación de la carga de trabajo. Los pods no están disponibles si no cumplen este criterio.
`apiserver_storage_objects` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `resource`	La cantidad de objetos almacenados en etcd en el momento de la última comprobación.
`apiserver_request_total` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `code`, `verb`	La cantidad total de solicitudes de la API al servidor de la API de Kubernetes.
`apiserver_request_duration_seconds` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `verb`	La latencia de respuesta a las solicitudes de la API al servidor de la API de Kubernetes.
`apiserver_admission_controller_admission_duration_seconds` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `operation`	La latencia del controlador de admisión en segundos. Un controlador de admisión es un código que intercepta las solicitudes al servidor de la API de Kubernetes.
`rest_client_request_duration_seconds` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `operation`	La latencia de respuesta que experimentan los clientes que llaman al servidor de la API de Kubernetes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.
`rest_client_requests_total` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `code`, `method`	La cantidad total de solicitudes de la API al servidor de la API de Kubernetes que hacen los clientes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.
`etcd_request_duration_seconds` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `operation`	La latencia de respuesta de las llamadas de la API a Etcd. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.
`apiserver_storage_size_bytes` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `endpoint`	El tamaño del archivo de base de datos de almacenamiento asignado físicamente en bytes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.
`apiserver_longrunning_requests` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `resource`	La cantidad de solicitudes activas de larga duración al servidor de la API de Kubernetes.
`apiserver_current_inflight_requests` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `request_kind`	La cantidad de solicitudes que procesa el servidor de la API de Kubernetes.
`apiserver_admission_webhook_admission_duration_seconds` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `name`	La latencia del webhook de admisión en segundos. Los webhooks de admisión son devoluciones de llamadas HTTP que reciben las solicitudes de admisión y hacen algo con ellas.
`apiserver_admission_step_admission_duration_seconds` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `operation`	La latencia del subpaso de admisión en segundos.
`apiserver_requested_deprecated_apis` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `group`	La cantidad de solicitudes a API obsoletas en el servidor de la API de Kubernetes.
`apiserver_request_total_5XX` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `code`, `verb`	La cantidad de solicitudes al servidor de la API de Kubernetes a las que se respondió con un código de respuesta HTTP 5XX.
`apiserver_storage_list_duration_seconds` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `resource`	La latencia de respuesta de los objetos listados de Etcd. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.
`apiserver_current_inqueue_requests` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `request_kind`	La cantidad de solicitudes en cola que colocó el servidor de la API de Kubernetes. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.
`apiserver_flowcontrol_rejected_requests_total` Esta métrica solo está disponible con Información de contenedores con observabilidad mejorada para Amazon EKS		`ClusterName` `ClusterName`, `reason`	La cantidad de solicitudes rechazadas por el Subsistema de prioridad y equidad de la API. Esta métrica es experimental y puede cambiar en futuras versiones de Kubernetes.

Métricas de GPU de NVIDIA

A partir de la versión 1.300034.0 del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila las métricas de GPU de NVIDIA de las cargas de trabajo de EKS de forma predeterminada. El agente de CloudWatch debe instalarse con la versión v1.3.0-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Estas métricas de GPU de NVIDIA que se recopilan se muestran en la tabla de esta sección.

Para que Información de contenedores recopile métricas de GPU de NVIDIA, debe cumplir los siguientes requisitos previos:

Debe utilizar Información de contenedores con observabilidad mejorada para Amazon EKS, con la versión v1.3.0-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch.
El complemento de dispositivo de NVIDIA para Kubernetes debe estar instalado en el clúster.
El kit de herramientas de contenedor de NVIDIA debe estar instalado en los nodos del clúster. Por ejemplo, las AMI aceleradas optimizadas para Amazon EKS se crearon con los componentes necesarios.

Para dejar de recopilar métricas de GPU de NVIDIA, establezca la opción accelerated_compute_metrics del inicio del archivo de configuración del agente de CloudWatch como false. Para obtener más información y un ejemplo de configuración de desactivación, consulte Configuraciones adicionales (Opcional).

Nombre de métrica	Dimensiones	Descripción
`container_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	El tamaño total del búfer del marco, en bytes, en las GPU asignadas al contenedor.
`container_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Los bytes del búfer del marco que se usan en las GPU asignadas al contenedor.
`container_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	El porcentaje del búfer del marco que se usa en las GPU asignadas al contenedor.
`container_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	El consumo de energía en vatios de las GPU asignadas al contenedor.
`container_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	La temperatura en grados centígrados de las GPU asignadas al contenedor.
`container_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	El porcentaje de uso de las GPU asignadas al contenedor.
`node_gpu_memory_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	El tamaño total del búfer del marco, en bytes, en las GPU asignadas al nodo.
`node_gpu_memory_used`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Los bytes del búfer del marco que se usan en las GPU asignadas al nodo.
`node_gpu_memory_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	El porcentaje del búfer del marco que se usa en las GPU asignadas al nodo.
`node_gpu_power_draw`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	El consumo de energía en vatios de las GPU asignadas al nodo.
`node_gpu_temperature`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	La temperatura en grados centígrados de las GPU asignadas al nodo.
`node_gpu_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	El porcentaje de uso de las GPU asignadas al nodo.
`pod_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	El tamaño total del búfer del marco, en bytes, en las GPU asignadas al pod.
`pod_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Los bytes del búfer del marco que se usan en las GPU asignadas al pod.
`pod_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	El porcentaje del búfer del marco que se usa en las GPU asignadas al pod.
`pod_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	El consumo de energía en vatios de las GPU asignadas al pod.
`pod_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	La temperatura en grados centígrados de las GPU asignadas al pod.
`pod_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	El porcentaje de uso de las GPU asignadas al pod.

Métricas de AWS Neuron para AWS Trainium y AWS Inferentia

A partir de la versión 1.300036.0 del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila métricas de computación aceleradas de los aceleradores de AWS Trainium y AWS Inferentia de forma predeterminada. El agente de CloudWatch debe instalarse con la versión v1.5.0-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información acerca de AWS Trainium, consulte AWS Trainium. Para obtener más información acerca de AWS Inferentia, consulte AWS Inferentia.

Para que Información de contenedores recopile métricas de AWS Neuron, debe cumplir los siguientes requisitos previos:

Debe utilizar Información de contenedores con observabilidad mejorada para Amazon EKS, con la versión v1.5.0-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch.
El controlador Neuron debe estar instalado en los nodos del clúster.
El complemento del dispositivo Neuron debe estar instalado en el clúster. Por ejemplo, las AMI aceleradas optimizadas para Amazon EKS se crearon con los componentes necesarios.

Las métricas que se recopilan se muestran en la tabla de esta sección. Las métricas se recopilan para AWS Trainium, AWS Inferentia y AWS Inferentia2.

El agente CloudWatch recopila estas métricas de Neuron Monitor y lleva a cabo la correlación de recursos de Kubernetes necesaria para entregar las métricas a nivel de pod y contenedor.

Nombre de métrica Dimensiones Descripción

Nombre de métrica	Dimensiones	Descripción
`container_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	Utilización de NeuronCore, durante el período de captura del NeuronCore asignado al contenedor. Unidad: porcentaje
`container_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al contenedor (o a los pesos durante la inferencia). Unidades: bytes
`container_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al contenedor. Unidades: bytes
`container_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al contenedor. Esta región de memoria está reservada para los modelos. Unidades: bytes
`container_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al contenedor. Unidades: bytes
`container_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al contenedor. Unidades: bytes
`container_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La cantidad total de memoria que NeuronCore utiliza y que se asigna al contenedor. Unidades: bytes
`container_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`	El número de eventos de ECC corregidos y no corregidos para la SRAM integrada en el chip y la memoria del dispositivo Neuron del nodo. Unidad: recuento
`pod_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La utilización de NeuronCore durante el período de captura de NeuronCore asignada al pod. Unidad: porcentaje
`pod_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al pod (o a los pesos durante la inferencia). Unidades: bytes
`pod_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al pod. Unidades: bytes
`pod_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al pod. Esta región de memoria está reservada para los modelos. Unidades: bytes
`pod_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al pod. Unidades: bytes
`pod_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al pod. Unidades: bytes
`pod_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La cantidad total de memoria que NeuronCore utiliza y que se asigna al pod. Unidades: bytes
`pod_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`	La cantidad de eventos de ECC corregidos y no corregidos para la SRAM en el chip y la memoria del dispositivo Neuron asignada a un pod. Unidades: bytes
`node_neuroncore_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La utilización de NeuronCore durante el período de captura de NeuronCore asignada al nodo. Unidad: porcentaje
`node_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al nodo (o a los pesos durante la inferencia). Unidades: bytes
`node_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al nodo. Unidades: bytes
`node_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al nodo. Esta es una región de memoria reservada para los modelos. Unidades: bytes
`node_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al nodo. Unidades: bytes
`node_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al nodo. Unidades: bytes
`node_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La cantidad total de memoria que NeuronCore utiliza y que se asigna al nodo. Unidades: bytes
`node_neuron_execution_errors_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	El número total de errores de ejecución del nodo. El agente de CloudWatch lo calcula agregando los errores de los siguientes tipos: `generic`, `numerical`, `transient`, `model`, `runtime` y `hardware` Unidad: recuento
`node_neurondevice_runtime_memory_used_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	El uso total de memoria del dispositivo Neuron en bytes en el nodo. Unidades: bytes
`node_neuron_execution_latency`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	En segundos, la latencia para una ejecución en el nodo medida por el tiempo de ejecución de Neuron. Unidad: segundos
`node_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `NodeName`, `NeuronDevice`	El número de eventos de ECC corregidos y no corregidos para la SRAM integrada en el chip y la memoria del dispositivo Neuron del nodo. Unidad: recuento

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Utilización de NeuronCore, durante el período de captura del NeuronCore asignado al contenedor.

Unidad: porcentaje

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al contenedor (o a los pesos durante la inferencia).

Unidades: bytes

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al contenedor.

Unidades: bytes

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al contenedor. Esta región de memoria está reservada para los modelos.

Unidades: bytes

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al contenedor.

Unidades: bytes

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al contenedor.

Unidades: bytes

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La cantidad total de memoria que NeuronCore utiliza y que se asigna al contenedor.

Unidades: bytes

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

El número de eventos de ECC corregidos y no corregidos para la SRAM integrada en el chip y la memoria del dispositivo Neuron del nodo.

Unidad: recuento

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La utilización de NeuronCore durante el período de captura de NeuronCore asignada al pod.

Unidad: porcentaje

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al pod (o a los pesos durante la inferencia).

Unidades: bytes

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al pod.

Unidades: bytes

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al pod. Esta región de memoria está reservada para los modelos.

Unidades: bytes

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al pod.

Unidades: bytes

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al pod.

Unidades: bytes

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La cantidad total de memoria que NeuronCore utiliza y que se asigna al pod.

Unidades: bytes

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

La cantidad de eventos de ECC corregidos y no corregidos para la SRAM en el chip y la memoria del dispositivo Neuron asignada a un pod.

Unidades: bytes

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La utilización de NeuronCore durante el período de captura de NeuronCore asignada al nodo.

Unidad: porcentaje

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para las constantes durante el entrenamiento y que se asigna al nodo (o a los pesos durante la inferencia).

Unidades: bytes

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el código ejecutable de los modelos y que se asigna al nodo.

Unidades: bytes

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el scratchpad compartido de los modelos y que se asigna al nodo. Esta es una región de memoria reservada para los modelos.

Unidades: bytes

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para el tiempo de ejecución de Neuron y que se asigna al nodo.

Unidades: bytes

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad de memoria del dispositivo que NeuronCore utiliza para los tensores y que se asigna al nodo.

Unidades: bytes

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La cantidad total de memoria que NeuronCore utiliza y que se asigna al nodo.

Unidades: bytes

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

El número total de errores de ejecución del nodo. El agente de CloudWatch lo calcula agregando los errores de los siguientes tipos: generic, numerical, transient, model, runtime y hardware

Unidad: recuento

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

El uso total de memoria del dispositivo Neuron en bytes en el nodo.

Unidades: bytes

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

En segundos, la latencia para una ejecución en el nodo medida por el tiempo de ejecución de Neuron.

Unidad: segundos

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

El número de eventos de ECC corregidos y no corregidos para la SRAM integrada en el chip y la memoria del dispositivo Neuron del nodo.

Unidad: recuento

Métricas de AWS Elastic Fabric Adapter (EFA)

A partir de la versión 1.300037.0 del agente de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila métricas de AWS Elastic Fabric Adapter (EFA) de clústeres de Amazon EKS en instancias de Linux. El agente de CloudWatch debe instalarse con la versión v1.5.2-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información sobre AWS Elastic Fabric Adapter (EFA), consulte Elastic Fabric Adapter.

Para que Información de contenedores recopile métricas de AWS Elastic Fabric Adapter, debe cumplir los siguientes requisitos previos:

Debe utilizar Información de contenedores con observabilidad mejorada para Amazon EKS, con la versión v1.5.2-eksbuild.1 o posterior del complemento de EKS de observabilidad de Amazon CloudWatch.
El complemento del dispositivo EFA debe estar instalado en el clúster. Para obtener más información, consulte aws-efa-k8s-device-plugin en GitHub.

Las métricas que se recopilan se enumeran en la siguiente tabla.

Nombre de métrica Dimensiones Descripción

Nombre de métrica	Dimensiones	Descripción
`container_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor. Unidad: bytes/segundo
`container_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	El número de bytes por segundo que han transmitido los dispositivos EFA asignados al contenedor. Unidad: bytes/segundo
`container_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al contenedor. Unidad: recuento/segundo
`container_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo
`container_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	El número de bytes por segundo que han transmitido los dispositivos EFA asignados al contenedor mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo
`container_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor durante operaciones de escritura de acceso remoto directo a la memoria. Unidad: bytes/segundo
`pod_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod. Unidad: bytes/segundo
`pod_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod. Unidad: bytes/segundo
`pod_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al pod. Unidad: recuento/segundo
`pod_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo
`pod_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo
`pod_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod durante operaciones de escritura de acceso remoto directo a la memoria. Unidad: bytes/segundo
`node_efa_rx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo. Unidad: bytes/segundo
`node_efa_tx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	El número de bytes por segundo que han transmitido los dispositivos EFA asignados al nodo. Unidad: bytes/segundo
`node_efa_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al nodo. Unidad: recuento/segundo
`node_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo
`pod_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria. Unidad: bytes/segundo
`node_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo durante operaciones de escritura de acceso remoto directo a la memoria. Unidad: bytes/segundo

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor.

Unidad: bytes/segundo

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al contenedor.

Unidad: bytes/segundo

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al contenedor.

Unidad: recuento/segundo

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al contenedor mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al contenedor durante operaciones de escritura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod.

Unidad: bytes/segundo

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod.

Unidad: bytes/segundo

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al pod.

Unidad: recuento/segundo

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al pod durante operaciones de escritura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo.

Unidad: bytes/segundo

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al nodo.

Unidad: bytes/segundo

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de paquetes que han recibido y luego descartado los dispositivos EFA asignados al nodo.

Unidad: recuento/segundo

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han transmitido los dispositivos EFA asignados al pod mediante operaciones de lectura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

El número de bytes por segundo que han recibido los dispositivos EFA asignados al nodo durante operaciones de escritura de acceso remoto directo a la memoria.

Unidad: bytes/segundo

Métricas de Amazon SageMaker AI HyperPod

A partir de la versión v2.0.1-eksbuild.1 del complemento de observabilidad de EKS de CloudWatch, Información de contenedores con observabilidad mejorada para Amazon EKS recopila automáticamente métricas de Amazon SageMaker AI HyperPod de clústeres de Amazon EKS. Para obtener más información acerca del complemento, consulte Instalación del agente de CloudWatch con el complemento de observabilidad de EKS de Amazon CloudWatch o el gráfico de Helm. Para obtener más información sobre Amazon SageMaker AI HyperPod, consulte Amazon SageMaker AI HyperPod.

Las métricas que se recopilan se enumeran en la siguiente tabla.

Nombre de métrica Dimensiones Descripción

Nombre de métrica	Dimensiones	Descripción
`hyperpod_node_health_status_unschedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como `Unschedulable`. Esto significa que el nodo está llevando a cabo comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo. Unidad: recuento
`hyperpod_node_health_status_schedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como `Schedulable`. Esto significa que el nodo ha superado las comprobaciones de estado básicas o exhaustivas y está disponible para ejecutar cargas de trabajo. Unidad: recuento
`hyperpod_node_health_status_unschedulable_pending_replacement`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si HyperPod ha etiquetado un nodo como `UnschedulablePendingReplacement`. Esto significa que el nodo no ha superado las comprobaciones de estado exhaustivas o las comprobaciones del agente de supervisión del estado y tiene que reemplazarse. Si la recuperación automática de nodos está habilitada, Amazon SageMaker AI HyperPod reemplazará automáticamente el nodo. Unidad: recuento
`hyperpod_node_health_status_unschedulable_pending_reboot`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como `UnschedulablePendingReboot`. Esto significa que el nodo está haciendo comprobaciones de estado exhaustivas y es necesario reiniciarlo. Si la recuperación automática de nodos está habilitada, Amazon SageMaker AI HyperPod reiniciará automáticamente el nodo. Unidad: recuento

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como Unschedulable. Esto significa que el nodo está llevando a cabo comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo.

Unidad: recuento

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como Schedulable. Esto significa que el nodo ha superado las comprobaciones de estado básicas o exhaustivas y está disponible para ejecutar cargas de trabajo.

Unidad: recuento

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Indica si HyperPod ha etiquetado un nodo como UnschedulablePendingReplacement. Esto significa que el nodo no ha superado las comprobaciones de estado exhaustivas o las comprobaciones del agente de supervisión del estado y tiene que reemplazarse.

Si la recuperación automática de nodos está habilitada, Amazon SageMaker AI HyperPod reemplazará automáticamente el nodo.

Unidad: recuento

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Indica si Amazon SageMaker AI HyperPod ha etiquetado un nodo como UnschedulablePendingReboot. Esto significa que el nodo está haciendo comprobaciones de estado exhaustivas y es necesario reiniciarlo.

Si la recuperación automática de nodos está habilitada, Amazon SageMaker AI HyperPod reiniciará automáticamente el nodo.

Unidad: recuento

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Métricas de Información de contenedores de Amazon ECS

Referencia de registros de rendimiento