NVIDIAGPUmétriques AWS Métriques neuronales pour AWS Trainium et Inferentia AWS AWS Métriques de l'adaptateur Elastic Fabric (EFA) Amazon SageMaker AI HyperPod métriques

Statistiques d'Amazon EKS et Kubernetes Container Insights

Les tableaux suivants répertorient les métriques et les dimensions collectées par Container Insights pour Amazon EKS et Kubernetes. Ces métriques sont dans l'espace de noms ContainerInsights. Pour plus d'informations, consultez . Métriques.

Si vous ne voyez pas toutes les métriques Container Insights dans votre console, assurez-vous que vous avez terminé la configuration de Container Insights. Les métriques n'apparaissent pas tant que Container Insights n'a pas été complètement configuré. Pour de plus amples informations, veuillez consulter Configuration de Container Insights.

Si vous utilisez la version 1.5.0 ou ultérieure du EKS module complémentaire Amazon ou la version 1.300035.0 de l' CloudWatch agent, la plupart des métriques répertoriées dans le tableau suivant sont collectées pour les nœuds Linux et Windows. Consultez la colonne Nom de la métrique du tableau pour savoir quelles mesures ne sont pas collectées pour Windows.

Avec la version originale de Container Insights, les métriques sont facturées en tant que métriques personnalisées. Grâce à Container Insights avec une observabilité améliorée pour AmazonEKS, les métriques de Container Insights sont facturées par observation au lieu d'être facturées par métrique stockée ou par journal ingéré. Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing.

Note

Sous Windows, les métriques réseau telles que pod_network_rx_bytes et ne pod_network_tx_bytes sont pas collectées pour les conteneurs de processus hôtes.

Nom de la métrique	Dimensions avec n'importe quelle version de Container Insights	Dimensions supplémentaires avec Container Insights avec une observabilité améliorée pour Amazon EKS	Description
`cluster_failed_node_count`	`ClusterName`		Nombre d'échecs des nœuds de travail dans le cluster. Un nœud est considéré comme ayant échoué s'il souffre de conditions de nœud. Pour plus d'informations, consultez Conditions dans la documentation Kubernetes.
`cluster_node_count`	`ClusterName`		Nombre total de composants master dans le cluster.
`namespace_number_of_running_pods`	`Namespace` `ClusterName` `ClusterName`		Nombre de pods exécutés par espace de nom dans la ressource spécifiée par les dimensions que vous utilisez.
`node_cpu_limit`	`ClusterName`	`ClusterName`, `InstanceId`, `NodeName`	Nombre maximal d'CPUunités pouvant être attribuées à un seul nœud de ce cluster.
`node_cpu_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		Pourcentage d'CPUunités réservées aux composants du nœud, tels que kubelet, kube-proxy et Docker. Formule : `node_cpu_request / node_cpu_limit` Note `node_cpu_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`node_cpu_usage_total`	`ClusterName`	`ClusterName`, `InstanceId`, `NodeName`	Le nombre d'CPUunités utilisées sur les nœuds du cluster.
`node_cpu_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		Pourcentage total d'CPUunités utilisées sur les nœuds du cluster. Formule : `node_cpu_usage_total / node_cpu_limit`
`node_filesystem_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		Pourcentage total d'une capacité de système de fichiers utilisée sur les nœuds du cluster. Formule : `node_filesystem_usage / node_filesystem_capacity` Note `node_filesystem_usage` et `node_filesystem_capacity` ne sont pas indiqués directement sous forme de métrique, mais constituent des champs dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`node_memory_limit`	`ClusterName`	`ClusterName`, `InstanceId`, `NodeName`	Quantité de mémoire maximale, en octets, qui peut être attribuée à un seul nœud du cluster.
`node_filesystem_inodes` Cette métrique est disponible uniquement avec Container Insights avec une observabilité améliorée pour AmazonEKS. Il n'est pas disponible sous Windows.		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre total d'inodes (utilisés et non utilisés) sur un nœud.
`node_filesystem_inodes_free` Cette métrique est disponible uniquement avec Container Insights avec une observabilité améliorée pour AmazonEKS. Il n'est pas disponible sous Windows.		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre d'inodes non utilisés sur un nœud.
`node_memory_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		Pourcentage de mémoire actuellement utilisé sur les nœuds du cluster. Formule : `node_memory_request / node_memory_limit` Note `node_memory_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`node_memory_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		Pourcentage de mémoire actuellement utilisé par le ou les nœuds. Il s'agit du pourcentage d'utilisation de la mémoire du nœud divisé par la limitation de la mémoire du nœud. Formule : `node_memory_working_set / node_memory_limit`.
`node_memory_working_set`	`ClusterName`	`ClusterName`, `InstanceId`, `NodeName`	Quantité de mémoire, en octets, utilisée dans l'ensemble de travail des nœuds du cluster.
`node_network_total_bytes`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		Nombre total d'octets transmis et reçus par seconde sur le réseau par nœud dans un cluster. Formule : `node_network_rx_bytes + node_network_tx_bytes` Note `node_network_rx_bytes` et `node_network_tx_bytes` ne sont pas indiqués directement sous forme de métrique, mais constituent des champs dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`node_number_of_running_containers`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		Nombre de conteneurs en cours d'exécution par nœud dans un cluster.
`node_number_of_running_pods`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`		Nombre de pods en cours d'exécution par nœud dans un cluster.
`node_status_allocatable_pods` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de pods pouvant être affectés à un nœud en fonction de ses ressources allouables, défini comme le reste de la capacité d'un nœud après prise en compte des réserves de démons du système et des seuils d'expulsion stricts.
`node_status_capacity_pods` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de pods qui peuvent être affectés à un nœud en fonction de sa capacité.
`node_status_condition_ready` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si la condition d'état du nœud `Ready` est vraie pour les EC2 nœuds Amazon.
`node_status_condition_memory_pressure` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si la condition d'état `MemoryPressure` du nœud est vraie.
`node_status_condition_pid_pressure` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si la condition d'état `PIDPressure` du nœud est vraie.
`node_status_condition_disk_pressure` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si la condition d'état `OutOfDisk` du nœud est vraie.
`node_status_condition_unknown` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si l'une des conditions d'état du nœud est inconnue.
`node_interface_network_rx_dropped` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de paquets qui ont été reçus et ensuite abandonnés par une interface de réseau sur le nœud.
`node_interface_network_tx_dropped` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon. EKS		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre de paquets qui devaient être transmis, mais qui ont été abandonnés par une interface réseau sur le nœud.
`node_diskio_io_service_bytes_total` Cette métrique est disponible uniquement avec Container Insights avec une observabilité améliorée pour AmazonEKS. Il n'est pas disponible sous Windows.		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre total d'octets transférés par toutes les opérations d'E/S sur le nœud.
`node_diskio_io_serviced_total` Cette métrique est disponible uniquement avec Container Insights avec une observabilité améliorée pour AmazonEKS. Il n'est pas disponible sous Windows.		`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Le nombre total d'opérations d'E/S sur le nœud.
`pod_cpu_reserved_capacity`	`PodName`, Namespace, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	CPUCapacité réservée par pod dans un cluster. Formule : `pod_cpu_request / node_cpu_limit` Note `pod_cpu_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_cpu_utilization`	`PodName`, Namespace, `ClusterName` Espace de noms, `ClusterName` Service, Namespace, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pourcentage d'CPUunités utilisées par les pods. Formule : `pod_cpu_usage_total / node_cpu_limit` Note `pod_cpu_usage_total` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_cpu_utilization_over_pod_limit`	`PodName`, Namespace, `ClusterName` Espace de noms, `ClusterName` Service, Namespace, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pourcentage d'CPUunités utilisées par les pods par rapport à la limite de pods. Formule : `pod_cpu_usage_total / pod_cpu_limit` Note `pod_cpu_usage_total` et `pod_cpu_limit` ne sont pas indiqués directement sous forme de métrique, mais constituent des champs dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_memory_reserved_capacity`	`PodName`, Namespace, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	Pourcentage de mémoire réservé aux pods. Formule : `pod_memory_request / node_memory_limit` Note `pod_memory_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_memory_utilization`	`PodName`, Namespace, `ClusterName` Espace de noms, `ClusterName` Service, Namespace, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pourcentage de mémoire actuellement utilisé par le ou les pods. Formule : `pod_memory_working_set / node_memory_limit` Note `pod_memory_working_set` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_memory_utilization_over_pod_limit`	`PodName`, Namespace, `ClusterName` Espace de noms, `ClusterName` Service, Namespace, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pourcentage de mémoire utilisé par les pods par rapport à la limite des pods. Si l'un des conteneurs dans le pod n'a pas de limite de mémoire définie, cette métrique n'apparaît pas. Formule : `pod_memory_working_set / pod_memory_limit` Note `pod_memory_working_set` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_network_rx_bytes`	`PodName`, Namespace, `ClusterName` Espace de noms, `ClusterName` Service, Namespace, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	Nombre d'octets reçus par seconde sur le réseau par le pod. Formule : `sum(pod_interface_network_rx_bytes)` Note `pod_interface_network_rx_bytes` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_network_tx_bytes`	`PodName`, Namespace, `ClusterName` Espace de noms, `ClusterName` Service, Namespace, `ClusterName` `ClusterName`	`ClusterName`, `Namespace`, `PodName`, `FullPodName`	Nombre d'octets transmis par seconde sur le réseau par le pod. Formule : `sum(pod_interface_network_tx_bytes)` Note `pod_interface_network_tx_bytes` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_cpu_request` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Les CPU demandes pour le pod. Formule : `sum(container_cpu_request)` Note `pod_cpu_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_memory_request` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Les requêtes de mémoire du pod. Formule : `sum(container_memory_request)` Note `pod_memory_request` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_cpu_limit` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	CPULimite définie pour les conteneurs contenus dans le pod. Si aucune CPU limite n'est définie pour les conteneurs du pod, cette métrique n'apparaît pas. Formule : `sum(container_cpu_limit)` Note `pod_cpu_limit` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_memory_limit` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	La limite de mémoire définie pour les conteneurs du pod. Si l'un des conteneurs dans le pod n'a pas de limite de mémoire définie, cette métrique n'apparaît pas. Formule : `sum(container_memory_limit)` Note `pod_cpu_limit` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`pod_status_failed` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que tous les conteneurs du pod sont résiliés et qu'au moins un conteneur s'est arrêté avec un statut différent de zéro ou a été résilié par le système.
`pod_status_ready` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que tous les conteneurs du pod sont prêts, ayant atteint l'état `ContainerReady`.
`pod_status_running` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que tous les conteneurs du pod sont en cours d'exécution.
`pod_status_scheduled` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que le pod a été planifié sur un nœud.
`pod_status_unknown` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que l'état du pod ne peut pas être obtenu.
`pod_status_pending` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que le pod a été accepté par le cluster, mais qu'un ou plusieurs conteneurs ne sont pas encore prêts.
`pod_status_succeeded` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique que tous les conteneurs du pod ont été correctement résiliés et ne seront pas redémarrés.
`pod_number_of_containers` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs défini dans la spécification du pod.
`pod_number_of_running_containers` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont actuellement dans l'état `Running`.
`pod_container_status_terminated` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont dans l'état `Terminated`.
`pod_container_status_running` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont dans l'état `Running`.
`pod_container_status_waiting` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du pod qui sont dans l'état `Waiting`.
`pod_container_status_waiting_reason_crash_loop_back_off` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du module qui sont en attente en raison d'une `CrashLoopBackOff` erreur, lorsqu'un conteneur échoue à plusieurs reprises à démarrer.
`pod_container_status_waiting_reason_create_container_config_error` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs en attente dans le module, avec indication de la raison`CreateContainerConfigError`. Cela est dû à une erreur lors de la création de la configuration du conteneur.
`pod_container_status_waiting_reason_create_container_error` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du module qui sont en attente, avec la `CreateContainerError` raison d'une erreur lors de la création du conteneur.
`pod_container_status_waiting_reason_image_pull_error` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du module qui sont en attente en raison de `ErrImagePullImagePullBackOff`, ou`InvalidImageName`. Ces situations sont dues à une erreur lors de l'extraction de l'image du conteneur.
`pod_container_status_waiting_reason_oom_killer` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs dans le pod qui sont en bon `Terminated` état à cause d'un manque de mémoire (OOMtué).
`pod_container_status_waiting_reason_start_error` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Indique le nombre de conteneurs du module qui sont en attente, en `StartError` raison d'une erreur lors du démarrage du conteneur.
`pod_interface_network_rx_dropped` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Le nombre de paquets qui ont été reçus et ensuite abandonnés par une interface réseau pour le pod.
`pod_interface_network_tx_dropped` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Le nombre de paquets qui devaient être transmis, mais qui ont été abandonnés pour le pod.
`container_cpu_utilization` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Pourcentage d'CPUunités utilisées par le conteneur. Formule : `container_cpu_usage_total / node_cpu_limit` Note `container_cpu_utilization` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`container_cpu_utilization_over_container_limit` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Pourcentage d'CPUunités utilisées par le conteneur par rapport à la limite de conteneurs. Si aucune CPU limite n'est définie pour le conteneur, cette métrique n'apparaît pas. Formule : `container_cpu_usage_total / container_cpu_limit` Note `container_cpu_utilization_over_container_limit` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`container_memory_utilization` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Le pourcentage d'unités de mémoire en cours d'utilisation par le conteneur. Formule : `container_memory_working_set / node_memory_limit` Note `container_memory_utilization` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`container_memory_utilization_over_container_limit` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Le pourcentage d'unités de mémoire en cours d'utilisation par le conteneur par rapport à la limite du conteneur. Si le conteneur n'a pas de limite de mémoire définie, cette métrique n'apparaît pas. Formule : `container_memory_working_set / container_memory_limit` Note `container_memory_utilization_over_container_limit` n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, veuillez consulter Champs pertinents dans les événements du journal des performances pour Amazon EKS et Kubernetes.
`container_memory_failures_total` Cette métrique est disponible uniquement avec Container Insights avec une observabilité améliorée pour AmazonEKS. Il n'est pas disponible sous Windows.		`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Le nombre d'échecs d'allocation de mémoire rencontrés par le conteneur.
`pod_number_of_container_restarts`	PodName, `Namespace`, `ClusterName`		Nombre total de redémarrages de conteneur dans un pod.
`service_number_of_running_pods`	Service, `Namespace`, `ClusterName` `ClusterName`		Nombre de blocs exécutant le ou les services du cluster.
`replicas_desired` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`	Le nombre de pods souhaités pour une charge de travail, tel que défini dans la spécification de charge de travail.
`replicas_ready` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`	Le nombre de pods pour une charge de travail qui ont atteint le statut prêt.
`status_replicas_available` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`	Le nombre de pods disponibles pour une charge de travail. Un pod est disponible lorsqu'il est répond au critère `minReadySeconds` défini dans la spécification de charge de travail.
`status_replicas_unavailable` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `PodName`, `Namespace`, `ClusterName`	Le nombre de pods indisponibles pour une charge de travail. Un pod est disponible lorsqu'il est répond au critère `minReadySeconds` défini dans la spécification de charge de travail. Les pods ne sont pas disponibles s'ils ne répondent pas à ce critère.
`apiserver_storage_objects` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `resource`	Le nombre d'objets stockés dans etcd au moment de la dernière vérification.
`apiserver_request_total` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `code`, `verb`	Le nombre total de API requêtes adressées au serveur KubernetesAPI.
`apiserver_request_duration_seconds` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `verb`	Latence de réponse pour les API demandes adressées au serveur KubernetesAPI.
`apiserver_admission_controller_admission_duration_seconds` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `operation`	Latence du contrôleur d'admission en secondes. Un contrôleur d'admission est un code qui intercepte les demandes adressées au serveur KubernetesAPI.
`rest_client_request_duration_seconds` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `operation`	Latence de réponse rencontrée par les clients qui appellent le serveur API Kubernetes. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`rest_client_requests_total` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `code`, `method`	Nombre total de API demandes adressées au API serveur Kubernetes par les clients. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`etcd_request_duration_seconds` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `operation`	Latence de réponse des API appels vers Etcd. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`apiserver_storage_size_bytes` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `endpoint`	Taille du fichier de base de données de stockage physiquement alloué en octets. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`apiserver_longrunning_requests` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `resource`	Le nombre de demandes actives de longue durée adressées au serveur KubernetesAPI.
`apiserver_current_inflight_requests` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `request_kind`	Le nombre de demandes traitées par le serveur API Kubernetes.
`apiserver_admission_webhook_admission_duration_seconds` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `name`	Latence du webhook d'admission en secondes. Les webhooks d'admission sont HTTP des rappels qui reçoivent les demandes d'admission et en font quelque chose.
`apiserver_admission_step_admission_duration_seconds` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `operation`	Latence des sous-étapes d'admission en secondes.
`apiserver_requested_deprecated_apis` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `group`	Nombre de demandes obsolètes APIs sur le serveur API Kubernetes.
`apiserver_request_total_5XX` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `code`, `verb`	Nombre de demandes adressées au API serveur Kubernetes auxquelles un code de réponse HTTP 5XX a été répondu.
`apiserver_storage_list_duration_seconds` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `resource`	Latence de réponse lors de l'établissement de listes d'objets à partir d'Etcd. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`apiserver_current_inqueue_requests` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `request_kind`	Le nombre de demandes mises en file d'attente par le serveur Kubernetes. API Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.
`apiserver_flowcontrol_rejected_requests_total` Cette métrique est disponible uniquement avec Container Insights, avec une observabilité améliorée pour Amazon EKS		`ClusterName` `ClusterName`, `reason`	Nombre de demandes rejetées par le sous-système de API priorité et d'équité. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

NVIDIAGPUmétriques

À partir de la version 1.300034.0 de l' CloudWatch agent, Container Insights, doté d'une observabilité améliorée pour Amazon, EKS collecte par NVIDIA GPU défaut les métriques EKS des charges de travail. L' CloudWatch agent doit être installé à l'aide de la version EKS complémentaire CloudWatch d'Observability v1.3.0-eksbuild.1 ou d'une version ultérieure. Pour de plus amples informations, veuillez consulter Installez l' CloudWatch agent avec le EKS module complémentaire Amazon CloudWatch Observability ou le graphique Helm. Les NVIDIA GPU mesures collectées sont répertoriées dans le tableau de cette section.

Pour que Container Insights collecte NVIDIA GPU des métriques, vous devez remplir les conditions préalables suivantes :

Vous devez utiliser Container Insights avec une observabilité améliorée pour AmazonEKS, avec la version EKS complémentaire Amazon CloudWatch Observability v1.3.0-eksbuild.1 ou une version ultérieure.
Le plug-in de NVIDIA périphérique pour Kubernetes doit être installé dans le cluster.
Le kit d'outils du NVIDIA conteneur doit être installé sur les nœuds du cluster. Par exemple, les accélérateurs EKS optimisés pour Amazon AMIs sont conçus avec les composants nécessaires.

Vous pouvez refuser de collecter des NVIDIA GPU métriques en définissant l'accelerated_compute_metricsoption dans le fichier de configuration de l' CloudWatch agent Beginn sur. false Pour plus d'informations et un exemple de configuration de désinscription, consultez(Facultatif) Configuration supplémentaire.

Nom de la métrique	Dimensions	Description
`container_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Taille totale de la mémoire tampon d'images, en octets, sur le GPU (s) fichier (s) alloué (s) au conteneur.
`container_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Les octets de mémoire tampon utilisés sur le GPU ou les octets alloués au conteneur.
`container_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Pourcentage de mémoire tampon d'images utilisé par rapport au GPU (x) élément (s) alloué (s) au conteneur.
`container_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	La consommation électrique en watts de la GPU ou des unités allouées au conteneur.
`container_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Température en degrés Celsius de la GPU ou des températures attribuées au contenant.
`container_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Pourcentage d'utilisation des GPU ressources allouées au conteneur.
`node_gpu_memory_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Taille totale de la mémoire tampon d'images, en octets, sur le GPU ou les blocs alloués au nœud.
`node_gpu_memory_used`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Les octets de mémoire tampon utilisés sur le GPU ou les octets alloués au nœud.
`node_gpu_memory_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Pourcentage de mémoire tampon d'images utilisé sur le GPU (s) bloc (s) alloué (s) au nœud.
`node_gpu_power_draw`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	La consommation électrique en watts des GPU unités allouées au nœud.
`node_gpu_temperature`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Température en degrés Celsius de la GPU ou des températures allouées au nœud.
`node_gpu_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Pourcentage d'utilisation des GPU ressources allouées au nœud.
`pod_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Taille totale de la mémoire tampon d'images, en octets, sur les GPU images allouées au pod.
`pod_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Les octets de mémoire tampon utilisés sur le GPU ou les octets alloués au pod.
`pod_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Le pourcentage de mémoire tampon d'images utilisé par rapport au GPU ou aux images allouées au pod.
`pod_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	La consommation électrique en watts de la GPU ou des unités allouées au module.
`pod_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Température en degrés Celsius de la GPU ou des températures allouées à la nacelle.
`pod_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Pourcentage d'utilisation des GPU ressources allouées au module.

AWS Métriques neuronales pour AWS Trainium et Inferentia AWS

À partir de la version 1.300036.0 de l' CloudWatch agent, Container Insights with Enhanced Observability for Amazon EKS collecte par défaut les métriques de calcul accéléré à partir des accélérateurs AWS Trainium et AWS Inferentia. L' CloudWatch agent doit être installé à l'aide de la version EKS complémentaire CloudWatch d'Observability v1.5.0-eksbuild.1 ou d'une version ultérieure. Pour plus d'informations sur le module complémentaire, consultezInstallez l' CloudWatch agent avec le EKS module complémentaire Amazon CloudWatch Observability ou le graphique Helm. Pour plus d'informations sur AWS Trainium, consultez AWS Trainium. Pour plus d'informations sur AWS Inferentia, voir AWS Inferentia.

Pour que Container Insights collecte des métriques AWS Neuron, vous devez remplir les conditions préalables suivantes :

Vous devez utiliser Container Insights avec une observabilité améliorée pour AmazonEKS, avec la version EKS complémentaire Amazon CloudWatch Observability v1.5.0-eksbuild.1 ou une version ultérieure.
Le pilote Neuron doit être installé sur les nœuds du cluster.
Le plug-in du périphérique Neuron doit être installé sur le cluster. Par exemple, les accélérateurs EKS optimisés pour Amazon AMIs sont conçus avec les composants nécessaires.

Les mesures collectées sont répertoriées dans le tableau de cette section. Les métriques sont collectées pour AWS Trainium, AWS Inferentia et AWS Inferentia2.

L' CloudWatch agent collecte ces métriques à partir du moniteur Neuron et effectue la corrélation des ressources Kubernetes nécessaire pour fournir des métriques au niveau du pod et du conteneur.

Nom de la métrique Dimensions Description

Nom de la métrique	Dimensions	Description
`container_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	NeuronCore utilisation, pendant la période capturée, de l' NeuronCore allocation au conteneur. Unité : pourcentage
`container_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour les constantes pendant l'entraînement par le NeuronCore qui est allouée au conteneur (ou les poids lors de l'inférence). Unité : octets
`container_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au conteneur. Unité : octets
`container_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagé par les NeuronCore modèles et allouée au conteneur. Cette zone de mémoire est réservée aux modèles. Unité : octets
`container_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour le runtime Neuron par la mémoire NeuronCore allouée au conteneur. Unité : octets
`container_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour les tenseurs par la quantité NeuronCore allouée au conteneur. Unité : octets
`container_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	La quantité totale de mémoire utilisée par la mémoire NeuronCore allouée au conteneur. Unité : octets
`container_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`	Le nombre d'ECCévénements corrigés et non corrigés pour la mémoire sur puce SRAM et la mémoire du périphérique Neuron sur le nœud. Unité : nombre
`pod_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	L' NeuronCore utilisation pendant la période capturée de l' NeuronCore allocation au pod. Unité : pourcentage
`pod_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour les constantes pendant l'entraînement par le NeuronCore module (ou les poids lors de l'inférence). Unité : octets
`pod_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au pod. Unité : octets
`pod_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagée entre les modèles par le module NeuronCore et allouée au pod. Cette zone de mémoire est réservée aux modèles. Unité : octets
`pod_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par la mémoire NeuronCore allouée au pod. Unité : octets
`pod_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour les tenseurs par la mémoire NeuronCore allouée au pod. Unité : octets
`pod_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	La quantité totale de mémoire utilisée par la mémoire NeuronCore allouée au pod. Unité : octets
`pod_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`	Le nombre d'ECCévénements corrigés et non corrigés pour la mémoire sur puce SRAM et la mémoire de l'appareil Neuron attribué à un module. Unité : octets
`node_neuroncore_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	L' NeuronCore utilisation pendant la période capturée du NeuronCore montant alloué au nœud. Unité : pourcentage
`node_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour les constantes pendant l'entraînement par le NeuronCore nœud (ou les poids lors de l'inférence). Unité : octets
`node_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au nœud. Unité : octets
`node_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagé entre NeuronCore les modèles par le nœud. Il s'agit d'une zone de mémoire réservée aux modèles. Unité : octets
`node_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par le périphérique NeuronCore qui est allouée au nœud. Unité : octets
`node_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité de mémoire du périphérique utilisée pour les tenseurs par le NeuronCore qui est allouée au nœud. Unité : octets
`node_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	La quantité totale de mémoire utilisée par le nœud NeuronCore qui est allouée au nœud. Unité : octets
`node_neuron_execution_errors_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Nombre total d'erreurs d'exécution sur le nœud. Ceci est calculé par l' CloudWatch agent en agrégeant les erreurs des types suivants :`generic`,`numerical`,`transient`, `modelruntime`, et `hardware` Unité : nombre
`node_neurondevice_runtime_memory_used_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	L'utilisation totale de la mémoire du dispositif Neuron en octets sur le nœud. Unité : octets
`node_neuron_execution_latency`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	En secondes, latence d'une exécution sur le nœud, telle que mesurée par le temps d'exécution du Neuron. Unité : secondes
`node_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `NodeName`, `NeuronDevice`	Le nombre d'ECCévénements corrigés et non corrigés pour la mémoire sur puce SRAM et la mémoire du périphérique Neuron sur le nœud. Unité : nombre

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore utilisation, pendant la période capturée, de l' NeuronCore allocation au conteneur.

Unité : pourcentage

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour les constantes pendant l'entraînement par le NeuronCore qui est allouée au conteneur (ou les poids lors de l'inférence).

Unité : octets

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au conteneur.

Unité : octets

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagé par les NeuronCore modèles et allouée au conteneur. Cette zone de mémoire est réservée aux modèles.

Unité : octets

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour le runtime Neuron par la mémoire NeuronCore allouée au conteneur.

Unité : octets

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour les tenseurs par la quantité NeuronCore allouée au conteneur.

Unité : octets

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par la mémoire NeuronCore allouée au conteneur.

Unité : octets

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

Le nombre d'ECCévénements corrigés et non corrigés pour la mémoire sur puce SRAM et la mémoire du périphérique Neuron sur le nœud.

Unité : nombre

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

L' NeuronCore utilisation pendant la période capturée de l' NeuronCore allocation au pod.

Unité : pourcentage

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour les constantes pendant l'entraînement par le NeuronCore module (ou les poids lors de l'inférence).

Unité : octets

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au pod.

Unité : octets

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagée entre les modèles par le module NeuronCore et allouée au pod. Cette zone de mémoire est réservée aux modèles.

Unité : octets

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par la mémoire NeuronCore allouée au pod.

Unité : octets

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour les tenseurs par la mémoire NeuronCore allouée au pod.

Unité : octets

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par la mémoire NeuronCore allouée au pod.

Unité : octets

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

Le nombre d'ECCévénements corrigés et non corrigés pour la mémoire sur puce SRAM et la mémoire de l'appareil Neuron attribué à un module.

Unité : octets

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

L' NeuronCore utilisation pendant la période capturée du NeuronCore montant alloué au nœud.

Unité : pourcentage

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour les constantes pendant l'entraînement par le NeuronCore nœud (ou les poids lors de l'inférence).

Unité : octets

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le code exécutable des modèles par le NeuronCore qui est allouée au nœud.

Unité : octets

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le bloc-notes partagé entre NeuronCore les modèles par le nœud. Il s'agit d'une zone de mémoire réservée aux modèles.

Unité : octets

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire de l'appareil utilisée pour le runtime Neuron par le périphérique NeuronCore qui est allouée au nœud.

Unité : octets

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire du périphérique utilisée pour les tenseurs par le NeuronCore qui est allouée au nœud.

Unité : octets

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par le nœud NeuronCore qui est allouée au nœud.

Unité : octets

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

Nombre total d'erreurs d'exécution sur le nœud. Ceci est calculé par l' CloudWatch agent en agrégeant les erreurs des types suivants :generic,numerical,transient, modelruntime, et hardware

Unité : nombre

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

L'utilisation totale de la mémoire du dispositif Neuron en octets sur le nœud.

Unité : octets

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

En secondes, latence d'une exécution sur le nœud, telle que mesurée par le temps d'exécution du Neuron.

Unité : secondes

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

Le nombre d'ECCévénements corrigés et non corrigés pour la mémoire sur puce SRAM et la mémoire du périphérique Neuron sur le nœud.

Unité : nombre

AWS Métriques de l'adaptateur Elastic Fabric (EFA)

À partir de la version 1.300037.0 de l' CloudWatch agent, Container Insights, doté d'une observabilité améliorée pour Amazon, EKS collecte les métriques AWS Elastic Fabric Adapter (EFA) à partir des EKS clusters Amazon sur des instances Linux. L' CloudWatch agent doit être installé à l'aide de la version EKS complémentaire CloudWatch d'Observability v1.5.2-eksbuild.1 ou d'une version ultérieure. Pour plus d'informations sur le module complémentaire, consultezInstallez l' CloudWatch agent avec le EKS module complémentaire Amazon CloudWatch Observability ou le graphique Helm. Pour plus d'informations sur AWS Elastic Fabric Adapter, consultez Elastic Fabric Adapter.

Pour que Container Insights collecte les métriques des adaptateurs AWS Elastic Fabric, vous devez remplir les conditions préalables suivantes :

Vous devez utiliser Container Insights avec une observabilité améliorée pour AmazonEKS, avec la version EKS complémentaire Amazon CloudWatch Observability v1.5.2-eksbuild.1 ou une version ultérieure.
Le plug-in de l'EFAappareil doit être installé sur le cluster. Pour plus d'informations, voir aws-efa-k8 s-device-plugin sur GitHub.

Les métriques collectées sont répertoriées dans le tableau suivant.

Nom de la métrique Dimensions Description

Nom de la métrique	Dimensions	Description
`container_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	Nombre d'octets par seconde reçus par le ou les EFA appareils affectés au conteneur. Unité : octets/seconde
`container_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	Le nombre d'octets par seconde transmis par le ou les EFA appareils affectés au conteneur. Unité : octets/seconde
`container_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	Le nombre de paquets reçus puis déposés par le ou les EFA appareils alloués au conteneur. Unité : compte/seconde
`container_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	Nombre d'octets par seconde reçus à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA périphériques affectés au conteneur. Unité : octets/seconde
`container_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	Nombre d'octets par seconde transmis à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA appareils affectés au conteneur. Unité : octets/seconde
`container_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `EfaDevice`	Nombre d'octets par seconde reçus lors des opérations d'écriture à accès direct à la mémoire à distance par le ou les EFA périphériques affectés au conteneur. Unité : octets/seconde
`pod_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	Nombre d'octets par seconde reçus par le ou les EFA appareils affectés au pod. Unité : octets/seconde
`pod_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	Nombre d'octets par seconde transmis par le ou les EFA appareils affectés au pod. Unité : octets/seconde
`pod_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	Le nombre de paquets reçus puis déposés par le ou les EFA appareils alloués au pod. Unité : compte/seconde
`pod_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	Nombre d'octets par seconde reçus à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA périphériques affectés au pod. Unité : octets/seconde
`pod_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	Nombre d'octets par seconde transmis à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA appareils affectés au pod. Unité : octets/seconde
`pod_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `EfaDevice`	Nombre d'octets par seconde reçus lors des opérations d'écriture à accès direct à la mémoire à distance par le ou les EFA périphériques affectés au pod. Unité : octets/seconde
`node_efa_rx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	Nombre d'octets par seconde reçus par le ou les EFA appareils alloués au nœud. Unité : octets/seconde
`node_efa_tx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	Nombre d'octets par seconde transmis par le ou les EFA appareils alloués au nœud. Unité : octets/seconde
`node_efa_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	Le nombre de paquets reçus puis abandonnés par le ou les EFA périphériques alloués au nœud. Unité : compte/seconde
`node_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	Nombre d'octets par seconde reçus à l'aide des opérations de lecture à distance par accès direct à la mémoire par le ou les EFA périphériques alloués au nœud. Unité : octets/seconde
`pod_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	Nombre d'octets par seconde transmis à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA appareils affectés au pod. Unité : octets/seconde
`node_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `EfaDevice`	Nombre d'octets par seconde reçus lors des opérations d'écriture à accès direct à la mémoire à distance par le ou les EFA périphériques alloués au nœud. Unité : octets/seconde

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Nombre d'octets par seconde reçus par le ou les EFA appareils affectés au conteneur.

Unité : octets/seconde

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Le nombre d'octets par seconde transmis par le ou les EFA appareils affectés au conteneur.

Unité : octets/seconde

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Le nombre de paquets reçus puis déposés par le ou les EFA appareils alloués au conteneur.

Unité : compte/seconde

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Nombre d'octets par seconde reçus à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA périphériques affectés au conteneur.

Unité : octets/seconde

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Nombre d'octets par seconde transmis à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA appareils affectés au conteneur.

Unité : octets/seconde

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Nombre d'octets par seconde reçus lors des opérations d'écriture à accès direct à la mémoire à distance par le ou les EFA périphériques affectés au conteneur.

Unité : octets/seconde

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Nombre d'octets par seconde reçus par le ou les EFA appareils affectés au pod.

Unité : octets/seconde

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Nombre d'octets par seconde transmis par le ou les EFA appareils affectés au pod.

Unité : octets/seconde

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Le nombre de paquets reçus puis déposés par le ou les EFA appareils alloués au pod.

Unité : compte/seconde

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Nombre d'octets par seconde reçus à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA périphériques affectés au pod.

Unité : octets/seconde

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Nombre d'octets par seconde transmis à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA appareils affectés au pod.

Unité : octets/seconde

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Nombre d'octets par seconde reçus lors des opérations d'écriture à accès direct à la mémoire à distance par le ou les EFA périphériques affectés au pod.

Unité : octets/seconde

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Nombre d'octets par seconde reçus par le ou les EFA appareils alloués au nœud.

Unité : octets/seconde

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Nombre d'octets par seconde transmis par le ou les EFA appareils alloués au nœud.

Unité : octets/seconde

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Le nombre de paquets reçus puis abandonnés par le ou les EFA périphériques alloués au nœud.

Unité : compte/seconde

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Nombre d'octets par seconde reçus à l'aide des opérations de lecture à distance par accès direct à la mémoire par le ou les EFA périphériques alloués au nœud.

Unité : octets/seconde

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Nombre d'octets par seconde transmis à l'aide d'opérations de lecture à distance avec accès direct à la mémoire par le ou les EFA appareils affectés au pod.

Unité : octets/seconde

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Nombre d'octets par seconde reçus lors des opérations d'écriture à accès direct à la mémoire à distance par le ou les EFA périphériques alloués au nœud.

Unité : octets/seconde

Amazon SageMaker AI HyperPod métriques

À partir de la version v2.0.1-eksbuild.1 du EKS module complémentaire CloudWatch Observability, Container Insights with Enhanced Observability for Amazon collecte EKS automatiquement les Amazon SageMaker AI HyperPod métriques des clusters AmazonEKS. Pour plus d'informations sur le module complémentaire, consultezInstallez l' CloudWatch agent avec le EKS module complémentaire Amazon CloudWatch Observability ou le graphique Helm. Pour plus d'informations sur Amazon SageMaker AI HyperPod, voir Amazon SageMaker AI HyperPod.

Les métriques collectées sont répertoriées dans le tableau suivant.

Nom de la métrique Dimensions Description

Nom de la métrique	Dimensions	Description
`hyperpod_node_health_status_unschedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si un nœud est étiqueté `Unschedulable` par Amazon SageMaker AI HyperPod. Cela signifie que le nœud effectue des contrôles de santé approfondis et n'est pas disponible pour exécuter des charges de travail. Unité : nombre
`hyperpod_node_health_status_schedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si un nœud est étiqueté `Schedulable` par Amazon SageMaker AI HyperPod. Cela signifie que le nœud a passé avec succès les tests de santé de base ou approfondis et qu'il est disponible pour exécuter des charges de travail. Unité : nombre
`hyperpod_node_health_status_unschedulable_pending_replacement`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si un nœud est étiqueté `UnschedulablePendingReplacement` par HyperPod. Cela signifie que le nœud a échoué aux tests de santé approfondis ou aux contrôles de l'agent de surveillance de l'état et qu'il doit être remplacé. Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par Amazon SageMaker AI HyperPod. Unité : nombre
`hyperpod_node_health_status_unschedulable_pending_reboot`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Indique si un nœud est étiqueté `UnschedulablePendingReboot` par Amazon SageMaker AI HyperPod. Cela signifie que le nœud effectue des contrôles de santé approfondis et doit être redémarré. Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. Amazon SageMaker AI HyperPod Unité : nombre

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté Unschedulable par Amazon SageMaker AI HyperPod. Cela signifie que le nœud effectue des contrôles de santé approfondis et n'est pas disponible pour exécuter des charges de travail.

Unité : nombre

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté Schedulable par Amazon SageMaker AI HyperPod. Cela signifie que le nœud a passé avec succès les tests de santé de base ou approfondis et qu'il est disponible pour exécuter des charges de travail.

Unité : nombre

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté UnschedulablePendingReplacement par HyperPod. Cela signifie que le nœud a échoué aux tests de santé approfondis ou aux contrôles de l'agent de surveillance de l'état et qu'il doit être remplacé.

Si la restauration automatique des nœuds est activée, le nœud sera automatiquement remplacé par Amazon SageMaker AI HyperPod.

Unité : nombre

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté UnschedulablePendingReboot par Amazon SageMaker AI HyperPod. Cela signifie que le nœud effectue des contrôles de santé approfondis et doit être redémarré.

Si la restauration automatique du nœud est activée, le nœud sera automatiquement redémarré par. Amazon SageMaker AI HyperPod

Unité : nombre

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Statistiques d'Amazon ECS Container Insights

Référence des journaux de performances