Metriche di Amazon EKS e Kubernetes Container Insights - Amazon CloudWatch

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Metriche di Amazon EKS e Kubernetes Container Insights

Le tabelle seguenti elencano le metriche e le dimensioni raccolte da Container Insights per Amazon EKS e Kubernetes. Tali parametri si trovano nello spazio dei nomi ContainerInsights. Per ulteriori informazioni, consulta la pagina Metriche.

Se nella console non viene visualizzato alcun parametro di Container Insights, assicurati di aver completato la configurazione di Container Insights. I parametri vengono visualizzati solo dopo aver completato la configurazione di Container Insights. Per ulteriori informazioni, consulta Configurazione di Container Insights.

Se utilizzi la versione 1.5.0 o successiva del EKS componente aggiuntivo Amazon o la versione 1.300035.0 dell' CloudWatch agente, la maggior parte delle metriche elencate nella tabella seguente viene raccolta per i nodi Linux e Windows. Consulta la colonna Metric Name della tabella per vedere quali metriche non vengono raccolte per Windows.

Con la versione originale di Approfondimenti sui container, i parametri vengono addebitati come parametri personalizzati. Con Container Insights con osservabilità migliorata per AmazonEKS, i parametri di Container Insights vengono addebitati per osservazione anziché per metrica archiviata o log importata. Per ulteriori informazioni sui CloudWatch prezzi, consulta la pagina CloudWatch dei prezzi di Amazon.

Nota

In Windows, i parametri di rete come pod_network_rx_bytes e non pod_network_tx_bytes vengono raccolti per i contenitori dei processi host.

Nome parametro Dimensioni con qualsiasi versione di Approfondimenti sui container Dimensioni aggiuntive con Container Insights con osservabilità migliorata per Amazon EKS Descrizione

cluster_failed_node_count

ClusterName

Il numero di nodi di lavoro non riusciti nel cluster. Un nodo è considerato non riuscito se risente delle condizioni del nodo. Per ulteriori informazioni, consulta Conditions (Condizioni) nella documentazione Kubernetes.

cluster_node_count

ClusterName

Il numero totale di nodi di lavoro nel cluster.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

Il numero di pod in esecuzione per spazio dei nomi nella risorsa specificata dalle dimensioni in uso.

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

Il numero massimo di CPU unità che possono essere assegnate a un singolo nodo in questo cluster.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

La percentuale di CPU unità riservate ai componenti del nodo, come kubelet, kube-proxy e Docker.

Formula: node_cpu_request / node_cpu_limit

Nota

node_cpu_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

Il numero di CPU unità utilizzate sui nodi del cluster.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

La percentuale totale di CPU unità utilizzate sui nodi del cluster.

Formula: node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

La percentuale totale della capacità del file system in uso sui nodi del cluster.

Formula: node_filesystem_usage / node_filesystem_capacity

Nota

node_filesystem_usage e node_filesystem_capacity non vengono riportati direttamente come parametri, ma sono campi nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

La quantità massima di memoria, espressa in byte, che può essere assegnata a un singolo nodo nel cluster corrente.

node_filesystem_inodes

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows.

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di inode (utilizzati e inutilizzati) su un nodo.

node_filesystem_inodes_free

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows.

ClusterName

ClusterName, InstanceId, NodeName

Il numero di inode inutilizzati su un nodo.

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

La percentuale di memoria attualmente utilizzata sui nodi del cluster.

Formula: node_memory_request / node_memory_limit

Nota

node_memory_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

La percentuale di memoria attualmente utilizzata dal nodo o dai nodi. È la percentuale di utilizzo della memoria del nodo rispetto alla limitazione di memoria del nodo.

Formula: node_memory_working_set / node_memory_limit.

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

La quantità di memoria, espressa in byte, in uso nel working set dei nodi del cluster.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

Il numero totale di byte al secondo trasmessi e ricevuti tramite la rete per nodo in un cluster.

Formula: node_network_rx_bytes + node_network_tx_bytes

Nota

node_network_rx_bytes e node_network_tx_bytes non vengono riportati direttamente come parametri, ma sono campi nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

Il numero di container in esecuzione per nodo in un cluster.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

Il numero di pod in esecuzione per nodo in un cluster.

node_status_allocatable_pods

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Il numero di pod che è possibile assegnare a un nodo in base alle relative risorse allocabili, definito come la parte restante della capacità di un nodo dopo aver tenuto conto delle prenotazioni dei daemon di sistema e delle soglie di espulsione forzata.

node_status_capacity_pods

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Il numero di pod che possono essere assegnati a un nodo in base alla sua capacità.

node_status_condition_ready

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se la condizione dello stato del nodo Ready è vera per EC2 i nodi Amazon.

node_status_condition_memory_pressure

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se la condizione dello stato del nodo MemoryPressure è vera.

node_status_condition_pid_pressure

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se la condizione dello stato del nodo PIDPressure è vera.

node_status_condition_disk_pressure

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se la condizione dello stato del nodo OutOfDisk è vera.

node_status_condition_unknown

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Indica se una qualsiasi delle condizioni di stato del nodo è sconosciuta.

node_interface_network_rx_dropped

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Il numero di pacchetti ricevuti e successivamente annullati da questa interfaccia di rete sul nodo.

node_interface_network_tx_dropped

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, InstanceId, NodeName

Il numero di pacchetti che dovevano essere trasmessi ma che sono stati annullati da un'interfaccia di rete sul nodo.

node_diskio_io_service_bytes_total

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows.

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di byte trasferiti da tutte le operazioni di I/O sul nodo.

node_diskio_io_serviced_total

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows.

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di operazioni di I/O sul nodo.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

La CPU capacità riservata per ogni pod in un cluster.

Formula: pod_cpu_request / node_cpu_limit

Nota

pod_cpu_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

La percentuale di CPU unità utilizzate dai pod.

Formula: pod_cpu_usage_total / node_cpu_limit

Nota

pod_cpu_usage_total non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

La percentuale di CPU unità utilizzate dai pod rispetto al limite dei pod.

Formula: pod_cpu_usage_total / pod_cpu_limit

Nota

pod_cpu_usage_total e pod_cpu_limit non vengono riportati direttamente come parametri, ma sono campi nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

La percentuale di memoria riservata per i pod.

Formula: pod_memory_request / node_memory_limit

Nota

pod_memory_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

La percentuale di memoria attualmente utilizzata dal pod o dai pod.

Formula: pod_memory_working_set / node_memory_limit

Nota

pod_memory_working_set non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

La percentuale di memoria utilizzata dai pod relativa al limite di pod. Se uno qualsiasi dei container nel pod non ha un limite di memoria definito, questo parametro non viene visualizzato.

Formula: pod_memory_working_set / pod_memory_limit

Nota

pod_memory_working_set non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Il numero di byte al secondo ricevuti sulla rete dal pod.

Formula: sum(pod_interface_network_rx_bytes)

Nota

pod_interface_network_rx_bytes non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Il numero di byte al secondo trasmessi sulla rete dal pod.

Formula: sum(pod_interface_network_tx_bytes)

Nota

pod_interface_network_tx_bytes non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_cpu_request

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Le CPU richieste per il pod.

Formula: sum(container_cpu_request)

Nota

pod_cpu_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_memory_request

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Le richieste di memoria per il pod.

Formula: sum(container_memory_request)

Nota

pod_memory_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_cpu_limit

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Il CPU limite definito per i contenitori nel pod. Se per alcuni contenitori nel contenitore non è definito un CPU limite, questa metrica non viene visualizzata.

Formula: sum(container_cpu_limit)

Nota

pod_cpu_limit non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_memory_limit

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Il limite di memoria definito per i container nel pod. Se uno qualsiasi dei container nel pod non ha un limite di memoria definito, questo parametro non viene visualizzato.

Formula: sum(container_memory_limit)

Nota

pod_cpu_limit non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

pod_status_failed

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che tutti i container nel pod sono terminati e che almeno un container è terminato con uno stato diverso da zero o è stato terminato dal sistema.

pod_status_ready

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che tutti i container nel pod sono pronti, dopo aver raggiunto la condizione ContainerReady.

pod_status_running

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che tutti i container nel pod sono in esecuzione.

pod_status_scheduled

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che il pod è stato pianificato su un nodo.

pod_status_unknown

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che lo stato del pod non può essere ottenuto.

pod_status_pending

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che il pod è stato accettato dal cluster ma uno o più container non sono ancora pronti.

pod_status_succeeded

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che tutti i container nel pod sono stati terminati correttamente e non verranno riavviati.

pod_number_of_containers

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container definito nella specifica del pod.

pod_number_of_running_containers

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container nel pod che si trovano attualmente nello stato Running.

pod_container_status_terminated

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container nel pod che si trovano nello stato Terminated.

pod_container_status_running

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container nel pod che si trovano nello stato Running.

pod_container_status_waiting

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container nel pod che si trovano nello stato Waiting.

pod_container_status_waiting_reason_crash_loop_back_off

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso a causa di un CrashLoopBackOff errore, a causa del quale un contenitore non si avvia ripetutamente.

pod_container_status_waiting_reason_create_container_config_error

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso con il motivo. CreateContainerConfigError Ciò è dovuto a un errore durante la creazione della configurazione del contenitore.

pod_container_status_waiting_reason_create_container_error

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso con il motivo a CreateContainerError causa di un errore durante la creazione del contenitore.

pod_container_status_waiting_reason_image_pull_error

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso a causa diErrImagePull, ImagePullBackOff o. InvalidImageName Queste situazioni sono dovute a un errore durante l'estrazione dell'immagine del contenitore.

pod_container_status_waiting_reason_oom_killer

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel pod che si trovano nello stato Terminated

a causa dell'esaurimento della memoria (OOMucciso).

pod_container_status_waiting_reason_start_error

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso, il motivo è StartError dovuto a un errore durante l'avvio del contenitore.

pod_interface_network_rx_dropped

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Il numero di pacchetti ricevuti e successivamente annullati da un'interfaccia di rete per il pod.

pod_interface_network_tx_dropped

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Il numero di pacchetti che dovevano essere trasmessi ma che sono stati annullati per il pod.

container_cpu_utilization

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La percentuale di CPU unità utilizzate dal container.

Formula: container_cpu_usage_total / node_cpu_limit

Nota

container_cpu_utilization non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

container_cpu_utilization_over_container_limit

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La percentuale di CPU unità utilizzate dal contenitore rispetto al limite del contenitore. Se il contenitore non ha un CPU limite definito, questa metrica non viene visualizzata.

Formula: container_cpu_usage_total / container_cpu_limit

Nota

container_cpu_utilization_over_container_limit non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

container_memory_utilization

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La percentuale di unità di memoria utilizzate dal container.

Formula: container_memory_working_set / node_memory_limit

Nota

container_memory_utilization non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

container_memory_utilization_over_container_limit

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La percentuale di unità di memoria utilizzate dal container in rapporto al limite del container. Se il container non ha un limite di memoria definito, questo parametro non viene visualizzato.

Formula: container_memory_working_set / container_memory_limit

Nota

container_memory_utilization_over_container_limit non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi pertinenti negli eventi dei log delle prestazioni per Amazon EKS e Kubernetes.

container_memory_failures_total

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows.

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Il numero di errori di allocazione della memoria riscontrati dal container.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

Il numero totale di riavvii del container in un pod.

service_number_of_running_pods

Service, Namespace, ClusterName

ClusterName

Il numero di pod che eseguono il servizio o i servizi nel cluster.

replicas_desired

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Il numero di pod desiderato per un carico di lavoro come definito nella specifica del carico di lavoro.

replicas_ready

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Il numero di pod per un carico di lavoro che hanno raggiunto lo stato pronto.

status_replicas_available

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Il numero di pod disponibili per un carico di lavoro. Un pod è disponibile quando è pronto per il tempo minReadySeconds definito nella specifica del carico di lavoro.

status_replicas_unavailable

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

PodName, Namespace, ClusterName

Il numero di pod non disponibili per un carico di lavoro. Un pod è disponibile quando è pronto per il tempo minReadySeconds definito nella specifica del carico di lavoro. I pod non sono disponibili se non soddisfano questo criterio.

apiserver_storage_objects

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, resource

Il numero di oggetti memorizzati in etcd al momento dell'ultimo controllo.

apiserver_request_total

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, code, verb

Il numero totale di API richieste al server API Kubernetes.

apiserver_request_duration_seconds

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, verb

Latenza di risposta per le API richieste al server Kubernetes. API

apiserver_admission_controller_admission_duration_seconds

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, operation

Latenza del controller di ammissione in secondi. Un controller di ammissione è un codice che intercetta le richieste al server Kubernetes. API

rest_client_request_duration_seconds

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, operation

Latenza di risposta riscontrata dai client che chiamano il server Kubernetes. API Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

rest_client_requests_total

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, code, method

Il numero totale di API richieste al server Kubernetes API effettuate dai client. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

etcd_request_duration_seconds

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, operation

Latenza di risposta delle API chiamate a Etcd. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

apiserver_storage_size_bytes

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, endpoint

Dimensione del file del database di archiviazione allocato fisicamente, espressa in byte. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

apiserver_longrunning_requests

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, resource

Il numero di richieste attive di lunga durata al server Kubernetes. API

apiserver_current_inflight_requests

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, request_kind

Il numero di richieste che vengono elaborate dal server API Kubernetes.

apiserver_admission_webhook_admission_duration_seconds

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, name

Latenza del webhook di ammissione in secondi. I webhook di ammissione sono HTTP callback che ricevono le richieste di ammissione e le utilizzano per fare qualcosa.

apiserver_admission_step_admission_duration_seconds

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, operation

Latenza delle fasi secondarie di ammissione in secondi.

apiserver_requested_deprecated_apis

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, group

Numero di richieste da dichiarare obsolete sul server Kubernetes. APIs API

apiserver_request_total_5XX

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, code, verb

Numero di richieste al API server Kubernetes a cui è stata data risposta con un codice di risposta 5XX. HTTP

apiserver_storage_list_duration_seconds

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, resource

Latenza di risposta dell'elencazione degli oggetti da Etcd. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

apiserver_current_inqueue_requests

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, request_kind

Il numero di richieste in coda messe in coda dal server Kubernetes. API Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

apiserver_flowcontrol_rejected_requests_total

Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS

ClusterName

ClusterName, reason

Numero di richieste rifiutate dal sottosistema API Priority and Fairness. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

NVIDIAGPUmetriche

A partire dalla versione 1.300034.0 dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie le NVIDIA GPU metriche dai EKS carichi di lavoro per impostazione predefinita. L' CloudWatch agente deve essere installato utilizzando la versione del componente aggiuntivo CloudWatch Observability EKS o successiva. v1.3.0-eksbuild.1 Per ulteriori informazioni, consulta Installa l' CloudWatch agente con il EKS componente aggiuntivo Amazon CloudWatch Observability o il grafico Helm. Queste NVIDIA GPU metriche raccolte sono elencate nella tabella di questa sezione.

Affinché Container Insights raccolga NVIDIA GPU le metriche, devi soddisfare i seguenti prerequisiti:

  • Devi utilizzare Container Insights con osservabilità avanzata per AmazonEKS, con la versione EKS v1.3.0-eksbuild.1 aggiuntiva Amazon CloudWatch Observability o successiva.

  • Il plug-in del NVIDIA dispositivo per Kubernetes deve essere installato nel cluster.

  • Il toolkit del NVIDIA contenitore deve essere installato sui nodi del cluster. Ad esempio, gli Amazon EKS Optimized Accelerated AMIs sono costruiti con i componenti necessari.

Puoi scegliere di non raccogliere i NVIDIA GPU parametri impostando l'accelerated_compute_metricsopzione nel file di configurazione dell' CloudWatch agente beginn su. false Per ulteriori informazioni e un esempio di configurazione di opt-out, consulta. (Facoltativo) Configurazione aggiuntiva

Nome parametro Dimensioni Descrizione

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La dimensione totale del frame buffer, in byte, sulle unità GPU allocate al contenitore.

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

I byte del frame buffer utilizzati sui file allocati al GPU contenitore.

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La percentuale di frame buffer utilizzata rispetto ai file GPU allocati al contenitore.

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Il consumo energetico in watt del/i GPU allocato/i al contenitore.

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La temperatura in gradi centigradi del/i GPU allocato/i al contenitore.

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La percentuale di utilizzo del/i GPU allocato/i al contenitore.

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La dimensione totale del frame buffer, in byte, sul GPU (i) allocato al nodo.

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

I byte del frame buffer utilizzati sul/i GPU allocato/i al nodo.

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La percentuale di frame buffer utilizzata sul/i GPU allocato/i al nodo.

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Il consumo energetico in watt del/i GPU allocato/i al nodo.

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La temperatura in gradi Celsius del/i GPU allocato/i al nodo.

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La percentuale di utilizzo del/i GPU allocato/i al nodo.

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La dimensione totale del frame buffer, in byte, sul GPU (i) allocato al pod.

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

I byte del frame buffer utilizzati sui file allocati al GPU pod.

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La percentuale di frame buffer utilizzata rispetto ai file GPU allocati al pod.

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Il consumo energetico in watt del/i GPU allocato/i al pod.

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La temperatura in gradi Celsius del/i GPU allocato/i al pod.

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La percentuale di utilizzo del/i GPU allocato/i al pod.

AWS Metriche neuronali per Trainium e Inferentia AWSAWS

A partire dalla versione 1.300036.0 dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie per impostazione predefinita i parametri di elaborazione accelerata dagli AWS acceleratori Trainium e AWS Inferentia. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva Observability o successiva. CloudWatch EKS v1.5.0-eksbuild.1 Per ulteriori informazioni sul componente aggiuntivo, vedere. Installa l' CloudWatch agente con il EKS componente aggiuntivo Amazon CloudWatch Observability o il grafico Helm Per ulteriori informazioni su AWS Trainium, vedere AWS Trainium. Per ulteriori informazioni su AWS Inferentia, vedere Inferentia.AWS

Affinché Container Insights raccolga le metriche di AWS Neuron, è necessario soddisfare i seguenti prerequisiti:

  • Devi utilizzare Container Insights con osservabilità avanzata per AmazonEKS, con la versione EKS v1.5.0-eksbuild.1 aggiuntiva Amazon CloudWatch Observability o successiva.

  • Il driver Neuron deve essere installato sui nodi del cluster.

  • Il plug-in del dispositivo Neuron deve essere installato sul cluster. Ad esempio, gli Amazon EKS Optimized Accelerated AMIs sono costruiti con i componenti necessari.

Le metriche raccolte sono elencate nella tabella di questa sezione. Le metriche vengono raccolte per AWS Trainium, AWS Inferentia e Inferentia2. AWS

L' CloudWatch agente raccoglie queste metriche dal monitor Neuron ed esegue la necessaria correlazione delle risorse Kubernetes per fornire le metriche a livello di pod e container

Nome parametro Dimensioni Descrizione

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore utilizzo, durante il periodo di acquisizione, del materiale allocato al contenitore. NeuronCore

Unità: percentuale

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da parte del NeuronCore che viene allocata al contenitore (o i pesi durante l'inferenza).

Unità: byte

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al contenitore.

Unità: byte

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al contenitore. Questa area di memoria è riservata ai modelli.

Unità: byte

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il runtime Neuron da quella NeuronCore allocata al contenitore.

Unità: byte

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per i tensori da quella NeuronCore allocata al contenitore.

Unità: byte

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità totale di memoria utilizzata dall' NeuronCore allocato al contenitore.

Unità: byte

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

Il numero di ECC eventi corretti e non corretti per la memoria sul chip SRAM e sul dispositivo del dispositivo Neuron sul nodo.

Unità: numero

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

L' NeuronCore utilizzo durante il periodo di acquisizione dell'allocazione al pod. NeuronCore

Unità: percentuale

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da the NeuronCore che viene allocata al pod (o i pesi durante l'inferenza).

Unità: byte

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al pod.

Unità: byte

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al pod. Questa area di memoria è riservata ai modelli.

Unità: byte

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il runtime di Neuron dall'area NeuronCore allocata al pod.

Unità: byte

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per i tensori da quella NeuronCore allocata al pod.

Unità: byte

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità totale di memoria utilizzata dall' NeuronCore allocazione al pod.

Unità: byte

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

Il numero di ECC eventi corretti e non corretti per la memoria sul chip SRAM e sul dispositivo del dispositivo Neuron allocata a un pod.

Unità: byte

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

L' NeuronCore utilizzo durante il periodo di acquisizione dell'allocazione al nodo. NeuronCore

Unità: percentuale

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da the NeuronCore che viene allocata al nodo (o i pesi durante l'inferenza).

Unità: byte

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al nodo.

Unità: byte

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al nodo. Si tratta di un'area di memoria riservata ai modelli.

Unità: byte

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il runtime di Neuron da NeuronCore che viene allocata al nodo.

Unità: byte

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per i tensori da NeuronCore that viene allocata al nodo.

Unità: byte

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità totale di memoria utilizzata da NeuronCore that viene allocata al nodo.

Unità: byte

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di errori di esecuzione sul nodo. Viene calcolato dall' CloudWatch agente aggregando gli errori dei seguenti tipi:generic,, numericaltransient, modelruntime, e hardware

Unità: numero

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

L'utilizzo totale della memoria del dispositivo Neuron in byte sul nodo.

Unità: byte

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

In secondi, la latenza per un'esecuzione sul nodo misurata dal runtime di Neuron.

Unità: secondi

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

Il numero di ECC eventi corretti e non corretti per la memoria sul chip SRAM e sul dispositivo del dispositivo Neuron sul nodo.

Unità: numero

AWS Metriche di Elastic Fabric Adapter () EFA

A partire dalla versione 1.300037.0 dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie i parametri di AWS Elastic Fabric Adapter (EFA) dai EKS cluster Amazon su istanze Linux. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva CloudWatch EKS Observability o successiva. v1.5.2-eksbuild.1 Per ulteriori informazioni sul componente aggiuntivo, vedere. Installa l' CloudWatch agente con il EKS componente aggiuntivo Amazon CloudWatch Observability o il grafico Helm Per ulteriori informazioni su AWS Elastic Fabric Adapter, consulta Elastic Fabric Adapter.

Affinché Container Insights raccolga le metriche dell'adattatore AWS Elastic Fabric, devi soddisfare i seguenti prerequisiti:

  • Devi utilizzare Container Insights con osservabilità avanzata per AmazonEKS, con la versione EKS v1.5.2-eksbuild.1 aggiuntiva Amazon CloudWatch Observability o successiva.

  • Il plug-in EFA del dispositivo deve essere installato nel cluster. Per ulteriori informazioni, vedere aws-efa-k8 s-device-plugin su GitHub.

Le metriche raccolte sono elencate nella tabella seguente.

Nome parametro Dimensioni Descrizione

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Il numero di byte al secondo ricevuti dai EFA dispositivi allocati al contenitore.

Unità: byte/secondo

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Il numero di byte al secondo trasmessi dai EFA dispositivi assegnati al contenitore.

Unità: byte/secondo

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Il numero di pacchetti ricevuti e poi rilasciati dai EFA dispositivi assegnati al contenitore.

Unità: conteggio/secondo

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura di accesso diretto alla memoria remota dai EFA dispositivi allocati al contenitore.

Unità: byte/secondo

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai EFA dispositivi allocati al contenitore.

Unità: byte/secondo

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, EfaDevice

Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai EFA dispositivi allocati al contenitore.

Unità: byte/secondo

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Il numero di byte al secondo ricevuti dai EFA dispositivi allocati al pod.

Unità: byte/secondo

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Il numero di byte al secondo trasmessi dai EFA dispositivi assegnati al pod.

Unità: byte/secondo

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Il numero di pacchetti ricevuti e poi rilasciati dai EFA dispositivi assegnati al pod.

Unità: conteggio/secondo

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai EFA dispositivi allocati al pod.

Unità: byte/secondo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai EFA dispositivi assegnati al pod.

Unità: byte/secondo

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, EfaDevice

Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai EFA dispositivi allocati al pod.

Unità: byte/secondo

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Il numero di byte al secondo ricevuti dai EFA dispositivi allocati al nodo.

Unità: byte/secondo

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Il numero di byte al secondo trasmessi dai EFA dispositivi assegnati al nodo.

Unità: byte/secondo

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Il numero di pacchetti ricevuti e poi rilasciati dai EFA dispositivi allocati al nodo.

Unità: conteggio/secondo

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura di accesso diretto alla memoria remota dai EFA dispositivi allocati al nodo.

Unità: byte/secondo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai EFA dispositivi allocati al pod.

Unità: byte/secondo

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, EfaDevice

Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai EFA dispositivi allocati al nodo.

Unità: byte/secondo

Amazon SageMaker AI HyperPod metriche

A partire dalla versione v2.0.1-eksbuild.1 del EKS componente aggiuntivo CloudWatch Observability, Container Insights con osservabilità migliorata per Amazon raccoglie EKS automaticamente le metriche Amazon SageMaker AI HyperPod dai cluster Amazon. EKS Per ulteriori informazioni sul componente aggiuntivo, consulta. Installa l' CloudWatch agente con il EKS componente aggiuntivo Amazon CloudWatch Observability o il grafico Helm Per ulteriori informazioni su Amazon SageMaker AI HyperPod, vedere Amazon SageMaker AI HyperPod.

Le metriche raccolte sono elencate nella tabella seguente.

Nome parametro Dimensioni Descrizione

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica se un nodo è etichettato come daUnschedulable. Amazon SageMaker AI HyperPod Ciò significa che il nodo sta eseguendo controlli di integrità approfonditi e non è disponibile per l'esecuzione di carichi di lavoro.

Unità: numero

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica se un nodo è etichettato come daSchedulable. Amazon SageMaker AI HyperPod Ciò significa che il nodo ha superato i controlli di integrità di base o i controlli di integrità approfonditi ed è disponibile per l'esecuzione di carichi di lavoro.

Unità: numero

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Indica se un nodo è etichettato come daUnschedulablePendingReplacement. HyperPod Ciò significa che il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e deve essere sostituito.

Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da Amazon SageMaker AI HyperPod.

Unità: numero

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Indica se un nodo è etichettato come UnschedulablePendingReboot da Amazon SageMaker AI HyperPod. Ciò significa che il nodo sta eseguendo controlli di integrità approfonditi e richiede un riavvio.

Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. Amazon SageMaker AI HyperPod

Unità: numero