Kennzahlen zu Amazon EKS und Kubernetes Container Insights - Amazon CloudWatch

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Kennzahlen zu Amazon EKS und Kubernetes Container Insights

In den folgenden Tabellen sind die Metriken und Dimensionen aufgeführt, die Container Insights für Amazon EKS und Kubernetes erfasst. Diese Metriken befinden sich im ContainerInsights-Namespace. Weitere Informationen finden Sie unter Metriken.

Wenn Sie keine Container Insights-Metriken in Ihrer Konsole sehen, stellen Sie sicher, dass Sie die Einrichtung von Container Insights durchgeführt haben. Metriken werden erst angezeigt, wenn Container Insights vollständig eingerichtet wurde. Weitere Informationen finden Sie unter Einrichten von Container Insights.

Wenn Sie Version 1.5.0 oder höher des EKS Amazon-Add-ons oder Version 1.300035.0 des CloudWatch Agenten verwenden, werden die meisten in der folgenden Tabelle aufgeführten Metriken sowohl für Linux- als auch für Windows-Knoten erfasst. In der Spalte Metrikname der Tabelle können Sie nachlesen, welche Metriken für Windows nicht erfasst wurden.

In der Originalversion von Container Insights werden die Metriken als benutzerdefinierte Metriken berechnet. Bei Container Insights mit verbesserter Observability für Amazon werden Container Insights-Metriken pro Beobachtung berechnetEKS, anstatt pro gespeicherter Metrik oder aufgenommenem Protokoll. Weitere Informationen zur CloudWatch Preisgestaltung finden Sie unter CloudWatch Amazon-Preise.

Anmerkung

Unter Windows pod_network_tx_bytes werden Netzwerkmetriken wie pod_network_rx_bytes und nicht für Host-Prozesscontainer erfasst.

Metrikname Dimensionen mit jeder Version von Container Insights Zusätzliche Dimensionen mit Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS Beschreibung

cluster_failed_node_count

ClusterName

Die Anzahl der fehlgeschlagenen Workerknoten im Cluster. Ein Knoten gilt als ausgefallen, wenn er unter Knotenbedingungen leidet. Weitere Informationen finden Sie unter Bedingungen in der Kubernetes-Dokumentation.

cluster_node_count

ClusterName

Die Gesamtzahl der Workerknoten im Cluster.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

Die Anzahl der Pods, die pro Namespace in der Ressource ausgeführt werden, die durch die von Ihnen verwendeten Dimensionen angegeben wird.

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

Die maximale Anzahl von CPU Einheiten, die einem einzelnen Knoten in diesem Cluster zugewiesen werden können.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

Der Prozentsatz der CPU Einheiten, die für Knotenkomponenten wie Kubelet, Kube-Proxy und Docker reserviert sind.

Formel: node_cpu_request / node_cpu_limit

Anmerkung

node_cpu_request wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

Die Anzahl der CPU Einheiten, die auf den Knoten im Cluster verwendet werden.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

Der Gesamtprozentsatz der CPU Einheiten, die auf den Knoten im Cluster verwendet werden.

Formel: node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

Der Gesamtprozentsatz der Dateisystemkapazität, die auf den Knoten im Cluster verwendet wird.

Formel: node_filesystem_usage / node_filesystem_capacity

Anmerkung

node_filesystem_usage und node_filesystem_capacity werden nicht direkt als Metriken gemeldet, sondern sind Felder in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

Die maximale Menge an Arbeitsspeicher in Byte, die einem einzelnen Knoten in diesem Cluster zugewiesen werden kann.

node_filesystem_inodes

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS verfügbar. Sie ist unter Windows nicht verfügbar.

ClusterName

ClusterName, InstanceId, NodeName

Die Gesamtzahl der inodes (verwendet und unbenutzt) auf einem Knoten.

node_filesystem_inodes_free

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS verfügbar. Sie ist unter Windows nicht verfügbar.

ClusterName

ClusterName, InstanceId, NodeName

Die Anzahl der ungenutzten inodes auf einem Knoten.

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

Der Prozentsatz des Arbeitsspeichers, der derzeit auf den Knoten im Cluster verwendet wird.

Formel: node_memory_request / node_memory_limit

Anmerkung

node_memory_request wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

Der Prozentsatz des Arbeitsspeichers, der derzeit vom Knoten oder den Knoten verwendet wird. Dies ist der Prozentsatz der Knotenspeichernutzung geteilt durch die Knotenspeicherbegrenzung.

Formel: node_memory_working_set / node_memory_limit.

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

Die Menge an Arbeitsspeicher in Byte, die im arbeitenden Satz der Knoten im Cluster verwendet wird.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

Die Gesamtzahl der pro Knoten in einem Cluster über das Netzwerk gesendeten und empfangenen Bytes pro Sekunde.

Formel: node_network_rx_bytes + node_network_tx_bytes

Anmerkung

node_network_rx_bytes und node_network_tx_bytes werden nicht direkt als Metriken gemeldet, sondern sind Felder in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

Die Anzahl der pro Knoten in einem Cluster ausgeführten Container.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

Die Anzahl der pro Knoten in einem Cluster ausgeführten Pods.

node_status_allocatable_pods

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Die Anzahl der Pods, die einem Knoten auf der Grundlage seiner zuweisbaren Ressourcen zugewiesen werden können. Diese ist definiert als die verbleibende Kapazität eines Knotens nach Berücksichtigung der Reservierungen von System-Daemons und der harten Schwellenwerte für die Bereinigung.

node_status_capacity_pods

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Die Anzahl der Pods, die einem Knoten basierend auf seiner Kapazität zugewiesen werden können.

node_status_condition_ready

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob die Knotenstatusbedingung für EC2 Amazon-Knoten wahr Ready ist.

node_status_condition_memory_pressure

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Zeigt an, ob die Knotenstatusbedingung MemoryPressure wahr ist.

node_status_condition_pid_pressure

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Zeigt an, ob die Knotenstatusbedingung PIDPressure wahr ist.

node_status_condition_disk_pressure

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Zeigt an, ob die Knotenstatusbedingung OutOfDisk wahr ist.

node_status_condition_unknown

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob eine der Knotenstatusbedingungen Unbekannt ist.

node_interface_network_rx_dropped

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Die Anzahl der Pakete, die von einer Netzwerkschnittstelle auf dem Knoten empfangen und anschließend verworfen wurden.

node_interface_network_tx_dropped

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, InstanceId, NodeName

Die Anzahl der Pakete, die übertragen werden sollten, aber von einer Netzwerkschnittstelle auf dem Knoten verworfen wurden.

node_diskio_io_service_bytes_total

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS verfügbar. Sie ist unter Windows nicht verfügbar.

ClusterName

ClusterName, InstanceId, NodeName

Die Gesamtzahl der Byte, die durch alle I/O-Vorgänge auf dem Knoten übertragen wurden.

node_diskio_io_serviced_total

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS verfügbar. Sie ist unter Windows nicht verfügbar.

ClusterName

ClusterName, InstanceId, NodeName

Die Gesamtzahl der I/O-Vorgänge auf dem Knoten.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

Die CPU Kapazität, die pro Pod in einem Cluster reserviert ist.

Formel: pod_cpu_request / node_cpu_limit

Anmerkung

pod_cpu_request wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Der Prozentsatz der CPU Einheiten, die von Pods verwendet werden.

Formel: pod_cpu_usage_total / node_cpu_limit

Anmerkung

pod_cpu_usage_total wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Der Prozentsatz der CPU Einheiten, die von Pods verwendet werden, im Verhältnis zum Pod-Limit.

Formel: pod_cpu_usage_total / pod_cpu_limit

Anmerkung

pod_cpu_usage_total und pod_cpu_limit werden nicht direkt als Metriken gemeldet, sondern sind Felder in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

Der Prozentsatz des Arbeitsspeichers, der für Pods reserviert ist.

Formel: pod_memory_request / node_memory_limit

Anmerkung

pod_memory_request wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Der Prozentsatz des Arbeitsspeichers, der derzeit vom Pod oder Pods verwendet wird.

Formel: pod_memory_working_set / node_memory_limit

Anmerkung

pod_memory_working_set wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Der Prozentsatz des Arbeitsspeichers, der von den Pods im Verhältnis zum Pod-Limit verwendet wird. Wenn für keinen der Container im Pod ein Speicherlimit definiert ist, wird diese Metrik nicht angezeigt.

Formel: pod_memory_working_set / pod_memory_limit

Anmerkung

pod_memory_working_set wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Die Anzahl der Bytes pro Sekunde, die vom Pod über das Netzwerk empfangen werden.

Formel: sum(pod_interface_network_rx_bytes)

Anmerkung

pod_interface_network_rx_bytes wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Die Anzahl der Bytes pro Sekunde, die vom Pod über das Netzwerk übertragen werden.

Formel: sum(pod_interface_network_tx_bytes)

Anmerkung

pod_interface_network_tx_bytes wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_cpu_request

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Die CPU Anfragen für den Pod.

Formel: sum(container_cpu_request)

Anmerkung

pod_cpu_request wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_memory_request

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Die Speicheranfragen für den Pod.

Formel: sum(container_memory_request)

Anmerkung

pod_memory_request wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_cpu_limit

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Das für die Container im Pod definierte CPU Limit. Wenn für Container im Pod kein CPU Limit definiert ist, wird diese Metrik nicht angezeigt.

Formel: sum(container_cpu_limit)

Anmerkung

pod_cpu_limit wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_memory_limit

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Das für die Container im Pod definierte Speicherlimit. Wenn für keinen der Container im Pod ein Speicherlimit definiert ist, wird diese Metrik nicht angezeigt.

Formel: sum(container_memory_limit)

Anmerkung

pod_cpu_limit wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

pod_status_failed

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Zeigt an, dass alle Container im Pod beendet wurden und mindestens ein Container mit einem Status ungleich Null beendet wurde oder vom System beendet wurde.

pod_status_ready

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Zeigt an, dass alle Container im Pod bereit sind, da sie den Zustand ContainerReady erreicht haben.

pod_status_running

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Zeigt an, dass alle Container im Pod laufen.

pod_status_scheduled

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Zeigt an, dass der Pod für einen Knoten geplant wurde.

pod_status_unknown

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Zeigt an, dass der Status des Pods nicht abgerufen werden kann.

pod_status_pending

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Zeigt an, dass der Pod vom Cluster akzeptiert wurde, aber einer oder mehrere Container noch nicht bereit sind.

pod_status_succeeded

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Zeigt an, dass alle Container im Pod erfolgreich beendet wurden und nicht neu gestartet werden.

pod_number_of_containers

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container, die in der Pod-Spezifikation definiert sind.

pod_number_of_running_containers

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die sich derzeit im Status Running befinden.

pod_container_status_terminated

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die sich im Status Terminated befinden.

pod_container_status_running

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die sich im Status Running befinden.

pod_container_status_waiting

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die sich im Status Waiting befinden.

pod_container_status_waiting_reason_crash_loop_back_off

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die aufgrund eines CrashLoopBackOff Fehlers, bei dem ein Container wiederholt nicht gestartet werden kann, noch ausstehen.

pod_container_status_waiting_reason_create_container_config_error

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die noch ausstehen, mit Angabe des GrundesCreateContainerConfigError. Der Grund dafür ist ein Fehler beim Erstellen der Container-Konfiguration.

pod_container_status_waiting_reason_create_container_error

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die CreateContainerError aufgrund eines Fehlers bei der Erstellung des Containers noch ausstehen, mit Angabe des Grundes.

pod_container_status_waiting_reason_image_pull_error

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die aufgrund von ErrImagePullImagePullBackOff, oder InvalidImageName noch ausstehen. Diese Situationen sind auf einen Fehler beim Abrufen des Container-Images zurückzuführen.

pod_container_status_waiting_reason_oom_killer

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die sich im Terminated Status befinden

weil nicht mehr genügend Speicher zur Verfügung steht (OOMgetötet).

pod_container_status_waiting_reason_start_error

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Meldet die Anzahl der Container im Pod, die noch ausstehen. Der StartError Grund dafür ist ein Fehler beim Starten des Containers.

pod_interface_network_rx_dropped

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Die Anzahl der Pakete, die von einer Netzwerkschnittstelle für den Pod empfangen und anschließend verworfen wurden.

pod_interface_network_tx_dropped

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Die Anzahl der Pakete, die übertragen werden sollten, aber für den Pod verworfen wurden.

container_cpu_utilization

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Der Prozentsatz der CPU Einheiten, die vom Container verwendet werden.

Formel: container_cpu_usage_total / node_cpu_limit

Anmerkung

container_cpu_utilization wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

container_cpu_utilization_over_container_limit

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Der Prozentsatz der CPU Einheiten, die vom Container verwendet werden, im Verhältnis zum Containerlimit. Wenn für den Container kein CPU Limit definiert ist, wird diese Metrik nicht angezeigt.

Formel: container_cpu_usage_total / container_cpu_limit

Anmerkung

container_cpu_utilization_over_container_limit wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

container_memory_utilization

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Prozentsatz der Speichereinheiten, die vom Container verwendet werden.

Formel: container_memory_working_set / node_memory_limit

Anmerkung

container_memory_utilization wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

container_memory_utilization_over_container_limit

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Prozentsatz der vom Container benutzten Speichereinheiten im Verhältnis zum Container-Limit. Wenn für den Container kein Speicherlimit definiert ist, wird diese Metrik nicht angezeigt.

Formel: container_memory_working_set / container_memory_limit

Anmerkung

container_memory_utilization_over_container_limit wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Leistungsprotokollereignissen für Amazon EKS und Kubernetes.

container_memory_failures_total

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS verfügbar. Sie ist unter Windows nicht verfügbar.

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Die Anzahl der Fehler bei der Speicherzuweisung, die beim Container aufgetreten sind.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

Die Gesamtanzahl der Container-Neustarts in einem Pod.

service_number_of_running_pods

Service Namespace, ClusterName

ClusterName

Die Anzahl der Pods, von denen der Service oder die Services im Cluster ausgeführt werden.

replicas_desired

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Die Anzahl der Pods, die für einen Workload gewünscht werden, wie in der Workload-Spezifikation definiert.

replicas_ready

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Die Anzahl der Pods für einen Workload, die den Status Bereit erreicht haben.

status_replicas_available

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Die Anzahl der verfügbaren Pods für einen Workload. Ein Pod ist verfügbar, wenn er für die in der Workload-Spezifikation definierten minReadySeconds bereit ist.

status_replicas_unavailable

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

PodName, Namespace, ClusterName

Die Anzahl der Pods für einen Workload, die nicht verfügbar sind. Ein Pod ist verfügbar, wenn er für die in der Workload-Spezifikation definierten minReadySeconds bereit ist. Pods sind nicht verfügbar, wenn sie dieses Kriterium nicht erfüllen.

apiserver_storage_objects

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, resource

Die Anzahl der zum Zeitpunkt der letzten Prüfung in etcd gespeicherten Objekte.

apiserver_request_total

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, code, verb

Die Gesamtzahl der API Anfragen an den API Kubernetes-Server.

apiserver_request_duration_seconds

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, verb

Reaktionslatenz für API Anfragen an den API Kubernetes-Server.

apiserver_admission_controller_admission_duration_seconds

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, operation

Latenz des Admission Controllers in Sekunden. Ein Admission Controller ist Code, der Anfragen an den Kubernetes-Server abfängt. API

rest_client_request_duration_seconds

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, operation

Reaktionslatenz bei Clients, die den Kubernetes-Server aufrufen. API Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.

rest_client_requests_total

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, code, method

Die Gesamtzahl der API Anfragen von Clients an den API Kubernetes-Server. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.

etcd_request_duration_seconds

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, operation

Antwortlatenz bei API Anrufen an Etcd. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.

apiserver_storage_size_bytes

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, endpoint

Größe der physisch zugewiesenen Speicherdatenbankdatei in Byte. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.

apiserver_longrunning_requests

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, resource

Die Anzahl der aktiven Anfragen mit langer Laufzeit an den API Kubernetes-Server.

apiserver_current_inflight_requests

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, request_kind

Die Anzahl der Anfragen, die vom API Kubernetes-Server verarbeitet werden.

apiserver_admission_webhook_admission_duration_seconds

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, name

Webhook-Latenz bei der Zulassung in Sekunden. Zulassungs-Webhooks sind HTTP Callbacks, die Zulassungsanfragen entgegennehmen und etwas damit anfangen.

apiserver_admission_step_admission_duration_seconds

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, operation

Latenz der Teilschritte bei der Zulassung in Sekunden.

apiserver_requested_deprecated_apis

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, group

Anzahl der Anfragen, die auf dem Kubernetes-Server als veraltet APIs gelten. API

apiserver_request_total_5XX

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, code, verb

Anzahl der Anfragen an den API Kubernetes-Server, auf die mit einem HTTP 5XX-Antwortcode geantwortet wurde.

apiserver_storage_list_duration_seconds

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, resource

Reaktionslatenz beim Auflisten von Objekten aus Etcd. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.

apiserver_current_inqueue_requests

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, request_kind

Die Anzahl der Anfragen in der Warteschlange, die vom Kubernetes-Server in die Warteschlange gestellt wurden. API Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.

apiserver_flowcontrol_rejected_requests_total

Diese Metrik ist nur mit Container Insights mit verbesserter Beobachtbarkeit für Amazon verfügbar. EKS

ClusterName

ClusterName, reason

Anzahl der Anfragen, die vom API Priority and Fairness-Subsystem abgelehnt wurden. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.

NVIDIAGPUMetriken

Ab 1.300034.0 der Version des CloudWatch Agenten EKS erfasst Container Insights mit verbesserter Observability für Amazon standardmäßig NVIDIA GPU Metriken aus EKS Workloads. Der CloudWatch Agent muss mit der CloudWatch EKS Observability-Zusatzversion oder einer späteren Version v1.3.0-eksbuild.1 installiert werden. Weitere Informationen finden Sie unter Installieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch EKS Observability-Add-on oder dem Helm-Diagramm. Diese gesammelten NVIDIA GPU Metriken sind in der Tabelle in diesem Abschnitt aufgeführt.

Damit Container Insights NVIDIA GPU Metriken sammeln kann, müssen Sie die folgenden Voraussetzungen erfüllen:

  • Sie müssen Container Insights mit erweiterter Observability für AmazonEKS, mit der Amazon CloudWatch EKS Observability-Zusatzversion v1.3.0-eksbuild.1 oder höher verwenden.

  • Das NVIDIA Geräte-Plugin für Kubernetes muss im Cluster installiert sein.

  • Das NVIDIA Container-Toolkit muss auf den Knoten des Clusters installiert sein. Beispielsweise AMIs sind die von Amazon EKS optimierten Accelerated mit den erforderlichen Komponenten ausgestattet.

Sie können die Erfassung von NVIDIA GPU Metriken deaktivieren, indem Sie die accelerated_compute_metrics Option in der CloudWatch Start-Agent-Konfigurationsdatei auf einstellenfalse. Weitere Informationen und ein Beispiel für eine Opt-Out-Konfiguration finden Sie unter(Optional) Zusätzliche Konfiguration.

Metrikname Dimensionen Beschreibung

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Die Gesamtgröße des Frame-Buffers in Byte auf dem/den dem Container zugewiesenen GPU (n).

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Die Byte des Frame-Buffers, die für die dem Container zugewiesenen GPU (n) verwendet wurden.

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Der Prozentsatz des verwendeten Frame-Buffers von den dem Container zugewiesenen GPU (n).

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Der Stromverbrauch der dem Container zugewiesenen GPU (s) in Watt.

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Die Temperatur der dem Container zugewiesenen GPU (s) in Grad Celsius.

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Die prozentuale Auslastung des/der dem Container zugewiesenen GPU (s).

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Die Gesamtgröße des Frame-Buffers in Byte auf dem/den dem Knoten zugewiesenen GPU (n).

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Die Byte des Frame-Buffers, die auf dem/den dem Knoten zugewiesenen GPU (n) verwendet wurden.

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Der Prozentsatz des Frame-Buffers, der auf den GPU (n) verwendet wird, die dem Knoten zugewiesen sind.

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Der Stromverbrauch der dem GPU Knoten zugewiesenen Einheiten in Watt.

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Die Temperatur der dem GPU Knoten zugewiesenen Werte in Grad Celsius.

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Die prozentuale Auslastung der dem Knoten zugewiesenen GPU (n).

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Die Gesamtgröße des Frame-Buffers in Byte auf dem/den dem Pod zugewiesenen GPU (n).

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Die Byte des Frame-Buffers, die für die dem Pod zugewiesenen GPU (n) verwendet wurden.

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Der Prozentsatz des verwendeten Frame-Buffers von den dem Pod zugewiesenen GPU (s).

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Der Stromverbrauch der dem Pod zugewiesenen GPU (s) in Watt.

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Die Temperatur der dem GPU Pod zugewiesenen Werte in Grad Celsius.

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Die prozentuale Auslastung des/der dem Pod zugewiesenen GPU (s).

AWS Neuronenmetriken für AWS Trainium und Inferentia AWS

Ab 1.300036.0 der Version des CloudWatch Agenten EKS erfasst Container Insights mit verbesserter Observability für Amazon standardmäßig beschleunigte Rechenmetriken von AWS Trainium- und AWS Inferentia-Beschleunigern. Der CloudWatch Agent muss mit der Observability-Zusatzversion oder einer späteren Version installiert werden. CloudWatch EKS v1.5.0-eksbuild.1 Weitere Informationen zum Add-on finden Sie unterInstallieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch EKS Observability-Add-on oder dem Helm-Diagramm. Weitere Informationen zu AWS Trainium finden Sie AWS unter Trainium. Weitere Informationen zu Inferentia finden Sie unter AWS Inferentia.AWS

Damit Container Insights AWS Neuron-Metriken sammeln kann, müssen Sie die folgenden Voraussetzungen erfüllen:

  • Sie müssen Container Insights mit erweiterter Observability für AmazonEKS, mit der Amazon CloudWatch EKS Observability-Zusatzversion v1.5.0-eksbuild.1 oder höher verwenden.

  • Der Neuron-Treiber muss auf den Knoten des Clusters installiert sein.

  • Das Neuron-Geräte-Plugin muss auf dem Cluster installiert sein. Beispielsweise AMIs sind die von Amazon EKS optimierten Accelerated mit den erforderlichen Komponenten ausgestattet.

Die gesammelten Metriken sind in der Tabelle in diesem Abschnitt aufgeführt. Die Metriken werden für AWS Trainium, AWS Inferentia und Inferentia2 gesammelt. AWS

Der CloudWatch Agent sammelt diese Metriken vom Neuron-Monitor und führt die erforderliche Korrelation der Kubernetes-Ressourcen durch, um Metriken auf Pod- und Container-Ebene bereitzustellen

Metrikname Dimensionen Beschreibung

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore Nutzung der dem Container NeuronCore zugewiesenen Daten während des erfassten Zeitraums.

Einheit: Prozent

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Menge an Gerätespeicher, die während des Trainings von dem NeuronCore , der dem Container zugewiesen wurde, für Konstanten verwendet wird (oder für Gewichte während der Inferenz).

Einheit: Byte

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem, der dem Container zugewiesen ist NeuronCore , für den ausführbaren Code der Modelle verwendet wird.

Einheit: Byte

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Container zugewiesen ist. Dieser Speicherbereich ist für die Modelle reserviert.

Einheit: Byte

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Menge an Gerätespeicher, die für die Neuron-Laufzeit von den dem Container NeuronCore zugewiesenen Geräten verwendet wird.

Einheit: Byte

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem dem Container NeuronCore zugewiesenen Gerät für Tensoren verwendet wird.

Einheit: Byte

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Gesamtmenge des Speichers, der von dem dem Container NeuronCore zugewiesenen Speicherplatz verwendet wird.

Einheit: Byte

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

Die Anzahl der korrigierten und unkorrigierten ECC Ereignisse für den On-Chip SRAM und den Gerätespeicher des Neuron-Geräts auf dem Knoten.

Einheit: Anzahl

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die NeuronCore Nutzung der dem Pod NeuronCore zugewiesenen Daten während des erfassten Zeitraums.

Einheit: Prozent

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der während des Trainings für Konstanten verwendet wird NeuronCore , die dem Pod zugewiesen wurden (oder für Gewichte während der Inferenz).

Einheit: Byte

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem, der dem Pod zugewiesen wurde NeuronCore , für den ausführbaren Code der Modelle verwendet wird.

Einheit: Byte

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Pod zugewiesen ist. Dieser Speicherbereich ist für die Modelle reserviert.

Einheit: Byte

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Menge an Gerätespeicher, die für die Neuron-Laufzeit von dem dem Pod NeuronCore zugewiesenen Gerät verwendet wird.

Einheit: Byte

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem dem Pod NeuronCore zugewiesenen Gerät für Tensoren verwendet wird.

Einheit: Byte

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Gesamtmenge des Speichers, der von dem dem Pod NeuronCore zugewiesenen Speicherplatz verwendet wird.

Einheit: Byte

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

Die Anzahl der korrigierten und unkorrigierten ECC Ereignisse für den On-Chip SRAM und den Gerätespeicher des Neuron-Geräts, das einem Pod zugewiesen ist.

Einheit: Byte

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die NeuronCore Auslastung des dem Knoten NeuronCore zugewiesenen Knotens während des erfassten Zeitraums.

Einheit: Prozent

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Menge des Gerätespeichers, der während des Trainings für Konstanten verwendet wird NeuronCore , die dem Knoten zugewiesen wurden (oder Gewichte während der Inferenz).

Einheit: Byte

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem, der dem Knoten zugewiesen ist NeuronCore , für den ausführbaren Modellcode verwendet wird.

Einheit: Byte

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Knoten zugewiesen ist. Dies ist ein Speicherbereich, der für die Modelle reserviert ist.

Einheit: Byte

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Menge an Gerätespeicher, die für die Neuron-Laufzeit von dem verwendet wird NeuronCore , der dem Knoten zugewiesen ist.

Einheit: Byte

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Menge des Gerätespeichers, der von dem für Tensoren verwendet wird NeuronCore , der dem Knoten zugewiesen ist.

Einheit: Byte

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Gesamtmenge des Speichers, der von dem verwendet wird NeuronCore , der dem Knoten zugewiesen ist.

Einheit: Byte

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

Die Gesamtzahl der Ausführungsfehler auf dem Knoten. Dies wird vom CloudWatch Agenten berechnet, indem er die Fehler der folgenden Typen aggregiert:generic,numerical,transient, modelruntime, und hardware

Einheit: Anzahl

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

Die gesamte Speichernutzung des Neuron-Geräts auf dem Knoten in Byte.

Einheit: Byte

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

In Sekunden, die Latenz für eine Ausführung auf dem Knoten, gemessen anhand der Neuron-Laufzeit.

Einheit: Sekunden

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

Die Anzahl der korrigierten und unkorrigierten ECC Ereignisse für den On-Chip SRAM und den Gerätespeicher des Neuron-Geräts auf dem Knoten.

Einheit: Anzahl

AWS Metriken für Elastic Fabric Adapter () EFA

Ab 1.300037.0 der Version des CloudWatch Agenten EKS sammelt Container Insights mit verbesserter Observability für Amazon AWS Elastic Fabric Adapter (EFA) -Metriken von EKS Amazon-Clustern auf Linux-Instances. Der CloudWatch Agent muss mit der CloudWatch EKS Observability-Zusatzversion v1.5.2-eksbuild.1 oder einer späteren Version installiert werden. Weitere Informationen zum Add-on finden Sie unterInstallieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch EKS Observability-Add-on oder dem Helm-Diagramm. Weitere Informationen zum AWS Elastic Fabric Adapter finden Sie unter Elastic Fabric Adapter.

Damit Container Insights Metriken für AWS Elastic Fabric-Adapter sammeln kann, müssen Sie die folgenden Voraussetzungen erfüllen:

  • Sie müssen Container Insights mit erweiterter Observability für AmazonEKS, mit der Amazon CloudWatch EKS Observability-Zusatzversion v1.5.2-eksbuild.1 oder höher verwenden.

  • Das EFA Geräte-Plugin muss auf dem Cluster installiert sein. Weitere Informationen finden Sie s-device-plugin unter aws-efa-k GitHub8.

Die gesammelten Metriken sind in der folgenden Tabelle aufgeführt.

Metrikname Dimensionen Beschreibung

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Die Anzahl der Byte pro Sekunde, die von den EFA Geräten empfangen wurden, die dem Container zugewiesen sind.

Einheit: Byte/Sekunde

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Die Anzahl der Byte pro Sekunde, die von den EFA Geräten, die dem Container zugewiesen sind, übertragen werden.

Einheit: Byte/Sekunde

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Die Anzahl der Pakete, die von den EFA Geräten, die dem Container zugewiesen wurden, empfangen und dann verworfen wurden.

Einheit: Zählung/Sekunde

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Fernzugriff auf den Speicher von den EFA Geräten, die dem Container zugewiesen sind, empfangen wurden.

Einheit: Byte/Sekunde

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Fernzugriff auf den Speicher von den EFA Geräten, die dem Container zugewiesen sind, übertragen wurden.

Einheit: Byte/Sekunde

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Die Anzahl der Byte pro Sekunde, die bei Schreibvorgängen mit direktem Fernzugriff auf den Speicher von den dem Container zugewiesenen EFA Geräten empfangen wurden.

Einheit: Byte/Sekunde

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Die Anzahl der Byte pro Sekunde, die von den EFA Geräten empfangen wurden, die dem Pod zugewiesen sind.

Einheit: Byte/Sekunde

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Die Anzahl der Byte pro Sekunde, die von den EFA Geräten übertragen werden, die dem Pod zugewiesen sind.

Einheit: Byte/Sekunde

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Die Anzahl der Pakete, die von den EFA Geräten, die dem Pod zugewiesen wurden, empfangen und dann verworfen wurden.

Einheit: Zählung/Sekunde

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Fernzugriff auf den Speicher von den EFA Geräten empfangen wurden, die dem Pod zugewiesen sind.

Einheit: Byte/Sekunde

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Fernzugriff auf den Speicher von den EFA Geräten, die dem Pod zugewiesen sind, übertragen wurden.

Einheit: Byte/Sekunde

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Die Anzahl der Byte pro Sekunde, die bei Schreibvorgängen mit direktem Fernzugriff auf den Speicher von den EFA Geräten empfangen wurden, die dem Pod zugewiesen sind.

Einheit: Byte/Sekunde

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Die Anzahl der Byte pro Sekunde, die von den EFA Geräten empfangen wurden, die dem Knoten zugewiesen sind.

Einheit: Byte/Sekunde

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Die Anzahl der Byte pro Sekunde, die von den EFA Geräten übertragen werden, die dem Knoten zugewiesen sind.

Einheit: Byte/Sekunde

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Die Anzahl der Pakete, die von den EFA Geräten, die dem Knoten zugewiesen sind, empfangen und dann verworfen wurden.

Einheit: Zählung/Sekunde

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Fernzugriff auf den Speicher von den EFA Geräten empfangen wurden, die dem Knoten zugewiesen sind.

Einheit: Byte/Sekunde

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Fernzugriff auf den Speicher von den EFA Geräten, die dem Pod zugewiesen sind, übertragen wurden.

Einheit: Byte/Sekunde

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Die Anzahl der Byte pro Sekunde, die bei Schreibvorgängen mit direktem Fernzugriff auf den Speicher von den EFA Geräten empfangen wurden, die dem Knoten zugewiesen sind.

Einheit: Byte/Sekunde

Amazon SageMaker HyperPod Metriken

Ab v2.0.1-eksbuild.1 der Version des CloudWatch EKS Observability-Add-ons sammelt Container Insights mit erweiterter Observability für Amazon EKS automatisch Amazon SageMaker HyperPod Metriken aus EKS Amazon-Clustern. Weitere Informationen über das Add-on finden Sie unter. Installieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch EKS Observability-Add-on oder dem Helm-Diagramm Weitere Informationen zu finden Amazon SageMaker HyperPod Sie unter Amazon SageMaker HyperPod.

Die gesammelten Metriken sind in der folgenden Tabelle aufgeführt.

Metrikname Dimensionen Beschreibung

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob ein Knoten mit der Bezeichnung Unschedulable by gekennzeichnet ist Amazon SageMaker HyperPod. Das bedeutet, dass der Knoten tiefgreifende Integritätsprüfungen durchführt und er nicht für die Ausführung von Workloads verfügbar ist.

Einheit: Anzahl

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob ein Knoten mit der Bezeichnung Schedulable by Amazon SageMaker HyperPod gekennzeichnet ist. Das bedeutet, dass der Knoten grundlegende Integritätsprüfungen oder tiefgreifende Integritätsprüfungen bestanden hat und für die Ausführung von Workloads verfügbar ist.

Einheit: Anzahl

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob ein Knoten mit der Bezeichnung UnschedulablePendingReplacement by HyperPod gekennzeichnet ist. Das bedeutet, dass der Knoten die gründlichen Integritätsprüfungen oder die Prüfungen des Integritätsüberwachungs-Agents nicht bestanden hat und ein Ersatz erforderlich ist.

Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch durch ersetzt Amazon SageMaker HyperPod.

Einheit: Anzahl

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob ein Knoten mit der Bezeichnung UnschedulablePendingReboot von gekennzeichnet ist Amazon SageMaker HyperPod. Das bedeutet, dass der Knoten tiefgreifende Integritätsprüfungen durchführt und ein Neustart erforderlich ist.

Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch von neu gestartet. Amazon SageMaker HyperPod

Einheit: Anzahl