Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Metriche di Amazon EKS e Kubernetes Container Insights
Le tabelle seguenti elencano le metriche e le dimensioni raccolte da Container Insights per Amazon EKS e Kubernetes. Tali parametri si trovano nello spazio dei nomi ContainerInsights
. Per ulteriori informazioni, consulta la pagina Metriche.
Se nella console non viene visualizzato alcun parametro di Container Insights, assicurati di aver completato la configurazione di Container Insights. I parametri vengono visualizzati solo dopo aver completato la configurazione di Container Insights. Per ulteriori informazioni, consulta Configurazione di Container Insights.
Se utilizzi la versione 1.5.0 o successiva del EKS componente aggiuntivo Amazon o la versione 1.300035.0 dell' CloudWatch agente, la maggior parte delle metriche elencate nella tabella seguente viene raccolta per i nodi Linux e Windows. Consulta la colonna Metric Name della tabella per vedere quali metriche non vengono raccolte per Windows.
Con la versione originale di Approfondimenti sui container, i parametri vengono addebitati come parametri personalizzati. Con Container Insights con osservabilità migliorata per AmazonEKS, i parametri di Container Insights vengono addebitati per osservazione anziché per metrica archiviata o log importata. Per ulteriori informazioni sui CloudWatch prezzi, consulta la pagina CloudWatch dei prezzi di Amazon
Nota
In Windows, i parametri di rete come pod_network_rx_bytes
e non pod_network_tx_bytes
vengono raccolti per i contenitori dei processi host.
Nome parametro | Dimensioni con qualsiasi versione di Approfondimenti sui container | Dimensioni aggiuntive con Container Insights con osservabilità migliorata per Amazon EKS | Descrizione |
---|---|---|---|
|
|
Il numero di nodi di lavoro non riusciti nel cluster. Un nodo è considerato non riuscito se risente delle condizioni del nodo. Per ulteriori informazioni, consulta Conditions |
|
|
|
Il numero totale di nodi di lavoro nel cluster. |
|
|
|
Il numero di pod in esecuzione per spazio dei nomi nella risorsa specificata dalle dimensioni in uso. |
|
|
|
|
Il numero massimo di CPU unità che possono essere assegnate a un singolo nodo in questo cluster. |
|
|
La percentuale di CPU unità riservate ai componenti del nodo, come kubelet, kube-proxy e Docker. Formula: Nota
|
|
|
|
|
Il numero di CPU unità utilizzate sui nodi del cluster. |
|
|
La percentuale totale di CPU unità utilizzate sui nodi del cluster. Formula: |
|
|
|
La percentuale totale della capacità del file system in uso sui nodi del cluster. Formula: Nota
|
|
|
|
|
La quantità massima di memoria, espressa in byte, che può essere assegnata a un singolo nodo nel cluster corrente. |
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows. |
|
Il numero totale di inode (utilizzati e inutilizzati) su un nodo. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows. |
|
Il numero di inode inutilizzati su un nodo. |
|
|
|
La percentuale di memoria attualmente utilizzata sui nodi del cluster. Formula: Nota
|
|
|
|
La percentuale di memoria attualmente utilizzata dal nodo o dai nodi. È la percentuale di utilizzo della memoria del nodo rispetto alla limitazione di memoria del nodo. Formula: |
|
|
|
|
La quantità di memoria, espressa in byte, in uso nel working set dei nodi del cluster. |
|
|
Il numero totale di byte al secondo trasmessi e ricevuti tramite la rete per nodo in un cluster. Formula: Nota
|
|
|
|
Il numero di container in esecuzione per nodo in un cluster. |
|
|
|
Il numero di pod in esecuzione per nodo in un cluster. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pod che è possibile assegnare a un nodo in base alle relative risorse allocabili, definito come la parte restante della capacità di un nodo dopo aver tenuto conto delle prenotazioni dei daemon di sistema e delle soglie di espulsione forzata. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pod che possono essere assegnati a un nodo in base alla sua capacità. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica se la condizione dello stato del nodo |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica se la condizione dello stato del nodo |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica se la condizione dello stato del nodo |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica se la condizione dello stato del nodo |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica se una qualsiasi delle condizioni di stato del nodo è sconosciuta. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pacchetti ricevuti e successivamente annullati da questa interfaccia di rete sul nodo. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pacchetti che dovevano essere trasmessi ma che sono stati annullati da un'interfaccia di rete sul nodo. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows. |
|
Il numero totale di byte trasferiti da tutte le operazioni di I/O sul nodo. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows. |
|
Il numero totale di operazioni di I/O sul nodo. |
|
|
|
|
La CPU capacità riservata per ogni pod in un cluster. Formula: Nota
|
|
Namespace, Service, Namespace,
|
|
La percentuale di CPU unità utilizzate dai pod. Formula: Nota
|
|
Namespace, Service, Namespace,
|
|
La percentuale di CPU unità utilizzate dai pod rispetto al limite dei pod. Formula: Nota
|
|
|
|
La percentuale di memoria riservata per i pod. Formula: Nota
|
|
Namespace, Service, Namespace,
|
|
La percentuale di memoria attualmente utilizzata dal pod o dai pod. Formula: Nota
|
|
Namespace, Service, Namespace,
|
|
La percentuale di memoria utilizzata dai pod relativa al limite di pod. Se uno qualsiasi dei container nel pod non ha un limite di memoria definito, questo parametro non viene visualizzato. Formula: Nota
|
|
Namespace, Service, Namespace,
|
|
Il numero di byte al secondo ricevuti sulla rete dal pod. Formula: Nota
|
|
Namespace, Service, Namespace,
|
|
Il numero di byte al secondo trasmessi sulla rete dal pod. Formula: Nota
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Le CPU richieste per il pod. Formula: Nota
|
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Le richieste di memoria per il pod. Formula: Nota
|
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il CPU limite definito per i contenitori nel pod. Se per alcuni contenitori nel contenitore non è definito un CPU limite, questa metrica non viene visualizzata. Formula: Nota
|
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il limite di memoria definito per i container nel pod. Se uno qualsiasi dei container nel pod non ha un limite di memoria definito, questo parametro non viene visualizzato. Formula: Nota
|
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica che tutti i container nel pod sono terminati e che almeno un container è terminato con uno stato diverso da zero o è stato terminato dal sistema. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica che tutti i container nel pod sono pronti, dopo aver raggiunto la condizione |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica che tutti i container nel pod sono in esecuzione. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica che il pod è stato pianificato su un nodo. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica che lo stato del pod non può essere ottenuto. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica che il pod è stato accettato dal cluster ma uno o più container non sono ancora pronti. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Indica che tutti i container nel pod sono stati terminati correttamente e non verranno riavviati. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di container definito nella specifica del pod. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di container nel pod che si trovano attualmente nello stato |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di container nel pod che si trovano nello stato |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di container nel pod che si trovano nello stato |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di container nel pod che si trovano nello stato |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di contenitori nel contenitore che sono in sospeso a causa di un |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di contenitori nel contenitore che sono in sospeso con il motivo. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di contenitori nel contenitore che sono in sospeso con il motivo a |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di contenitori nel contenitore che sono in sospeso a causa di |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di contenitori nel pod che si trovano nello stato |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Riporta il numero di contenitori nel contenitore che sono in sospeso, il motivo è |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pacchetti ricevuti e successivamente annullati da un'interfaccia di rete per il pod. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pacchetti che dovevano essere trasmessi ma che sono stati annullati per il pod. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
La percentuale di CPU unità utilizzate dal container. Formula: Nota
|
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
La percentuale di CPU unità utilizzate dal contenitore rispetto al limite del contenitore. Se il contenitore non ha un CPU limite definito, questa metrica non viene visualizzata. Formula: Nota
|
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
La percentuale di unità di memoria utilizzate dal container. Formula: Nota
|
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
La percentuale di unità di memoria utilizzate dal container in rapporto al limite del container. Se il container non ha un limite di memoria definito, questo parametro non viene visualizzato. Formula: Nota
|
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon. EKS Non è disponibile su Windows. |
|
Il numero di errori di allocazione della memoria riscontrati dal container. |
|
|
PodName, |
Il numero totale di riavvii del container in un pod. |
|
|
Service,
|
Il numero di pod che eseguono il servizio o i servizi nel cluster. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pod desiderato per un carico di lavoro come definito nella specifica del carico di lavoro. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pod per un carico di lavoro che hanno raggiunto lo stato pronto. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pod disponibili per un carico di lavoro. Un pod è disponibile quando è pronto per il tempo |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di pod non disponibili per un carico di lavoro. Un pod è disponibile quando è pronto per il tempo |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di oggetti memorizzati in etcd al momento dell'ultimo controllo. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero totale di API richieste al server API Kubernetes. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Latenza di risposta per le API richieste al server Kubernetes. API |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Latenza del controller di ammissione in secondi. Un controller di ammissione è un codice che intercetta le richieste al server Kubernetes. API |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Latenza di risposta riscontrata dai client che chiamano il server Kubernetes. API Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero totale di API richieste al server Kubernetes API effettuate dai client. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Latenza di risposta delle API chiamate a Etcd. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Dimensione del file del database di archiviazione allocato fisicamente, espressa in byte. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di richieste attive di lunga durata al server Kubernetes. API |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di richieste che vengono elaborate dal server API Kubernetes. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Latenza del webhook di ammissione in secondi. I webhook di ammissione sono HTTP callback che ricevono le richieste di ammissione e le utilizzano per fare qualcosa. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Latenza delle fasi secondarie di ammissione in secondi. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Numero di richieste da dichiarare obsolete sul server Kubernetes. APIs API |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Numero di richieste al API server Kubernetes a cui è stata data risposta con un codice di risposta 5XX. HTTP |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Latenza di risposta dell'elencazione degli oggetti da Etcd. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Il numero di richieste in coda messe in coda dal server Kubernetes. API Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes. |
|
Questa metrica è disponibile solo con Container Insights con osservabilità migliorata per Amazon EKS |
|
Numero di richieste rifiutate dal sottosistema API Priority and Fairness. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes. |
NVIDIAGPUmetriche
A partire dalla versione 1.300034.0
dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie le NVIDIA GPU metriche dai EKS carichi di lavoro per impostazione predefinita. L' CloudWatch agente deve essere installato utilizzando la versione del componente aggiuntivo CloudWatch Observability EKS o successiva. v1.3.0-eksbuild.1
Per ulteriori informazioni, consulta Installa l' CloudWatch agente con il EKS componente aggiuntivo Amazon CloudWatch Observability o il grafico Helm. Queste NVIDIA GPU metriche raccolte sono elencate nella tabella di questa sezione.
Affinché Container Insights raccolga NVIDIA GPU le metriche, devi soddisfare i seguenti prerequisiti:
Devi utilizzare Container Insights con osservabilità avanzata per AmazonEKS, con la versione EKS
v1.3.0-eksbuild.1
aggiuntiva Amazon CloudWatch Observability o successiva.Il plug-in del NVIDIA dispositivo per Kubernetes
deve essere installato nel cluster. Il toolkit del NVIDIA contenitore
deve essere installato sui nodi del cluster. Ad esempio, gli Amazon EKS Optimized Accelerated AMIs sono costruiti con i componenti necessari.
Puoi scegliere di non raccogliere i NVIDIA GPU parametri impostando l'accelerated_compute_metrics
opzione nel file di configurazione dell' CloudWatch agente beginn su. false
Per ulteriori informazioni e un esempio di configurazione di opt-out, consulta. (Facoltativo) Configurazione aggiuntiva
Nome parametro | Dimensioni | Descrizione |
---|---|---|
|
|
La dimensione totale del frame buffer, in byte, sulle unità GPU allocate al contenitore. |
|
|
I byte del frame buffer utilizzati sui file allocati al GPU contenitore. |
|
|
La percentuale di frame buffer utilizzata rispetto ai file GPU allocati al contenitore. |
|
|
Il consumo energetico in watt del/i GPU allocato/i al contenitore. |
|
|
La temperatura in gradi centigradi del/i GPU allocato/i al contenitore. |
|
|
La percentuale di utilizzo del/i GPU allocato/i al contenitore. |
|
|
La dimensione totale del frame buffer, in byte, sul GPU (i) allocato al nodo. |
|
|
I byte del frame buffer utilizzati sul/i GPU allocato/i al nodo. |
|
|
La percentuale di frame buffer utilizzata sul/i GPU allocato/i al nodo. |
|
|
Il consumo energetico in watt del/i GPU allocato/i al nodo. |
|
|
La temperatura in gradi Celsius del/i GPU allocato/i al nodo. |
|
|
La percentuale di utilizzo del/i GPU allocato/i al nodo. |
|
|
La dimensione totale del frame buffer, in byte, sul GPU (i) allocato al pod. |
|
|
I byte del frame buffer utilizzati sui file allocati al GPU pod. |
|
|
La percentuale di frame buffer utilizzata rispetto ai file GPU allocati al pod. |
|
|
Il consumo energetico in watt del/i GPU allocato/i al pod. |
|
|
La temperatura in gradi Celsius del/i GPU allocato/i al pod. |
|
|
La percentuale di utilizzo del/i GPU allocato/i al pod. |
AWS Metriche neuronali per Trainium e Inferentia AWSAWS
A partire dalla versione 1.300036.0
dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie per impostazione predefinita i parametri di elaborazione accelerata dagli AWS acceleratori Trainium e AWS Inferentia. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva Observability o successiva. CloudWatch EKS v1.5.0-eksbuild.1
Per ulteriori informazioni sul componente aggiuntivo, vedere. Installa l' CloudWatch agente con il EKS componente aggiuntivo Amazon CloudWatch Observability o il grafico Helm Per ulteriori informazioni su AWS Trainium, vedere AWS Trainium.
Affinché Container Insights raccolga le metriche di AWS Neuron, è necessario soddisfare i seguenti prerequisiti:
Devi utilizzare Container Insights con osservabilità avanzata per AmazonEKS, con la versione EKS
v1.5.0-eksbuild.1
aggiuntiva Amazon CloudWatch Observability o successiva.Il driver Neuron
deve essere installato sui nodi del cluster. Il plug-in del dispositivo Neuron
deve essere installato sul cluster. Ad esempio, gli Amazon EKS Optimized Accelerated AMIs sono costruiti con i componenti necessari.
Le metriche raccolte sono elencate nella tabella di questa sezione. Le metriche vengono raccolte per AWS Trainium, AWS Inferentia e Inferentia2. AWS
L' CloudWatch agente raccoglie queste metriche dal monitor Neuron
Nome parametro | Dimensioni | Descrizione |
---|---|---|
|
|
NeuronCore utilizzo, durante il periodo di acquisizione, del materiale allocato al contenitore. NeuronCore Unità: percentuale |
|
|
La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da parte del NeuronCore che viene allocata al contenitore (o i pesi durante l'inferenza). Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al contenitore. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al contenitore. Questa area di memoria è riservata ai modelli. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per il runtime Neuron da quella NeuronCore allocata al contenitore. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per i tensori da quella NeuronCore allocata al contenitore. Unità: byte |
|
|
La quantità totale di memoria utilizzata dall' NeuronCore allocato al contenitore. Unità: byte |
|
|
Il numero di ECC eventi corretti e non corretti per la memoria sul chip SRAM e sul dispositivo del dispositivo Neuron sul nodo. Unità: numero |
|
|
L' NeuronCore utilizzo durante il periodo di acquisizione dell'allocazione al pod. NeuronCore Unità: percentuale |
|
|
La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da the NeuronCore che viene allocata al pod (o i pesi durante l'inferenza). Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al pod. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al pod. Questa area di memoria è riservata ai modelli. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per il runtime di Neuron dall'area NeuronCore allocata al pod. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per i tensori da quella NeuronCore allocata al pod. Unità: byte |
|
|
La quantità totale di memoria utilizzata dall' NeuronCore allocazione al pod. Unità: byte |
|
|
Il numero di ECC eventi corretti e non corretti per la memoria sul chip SRAM e sul dispositivo del dispositivo Neuron allocata a un pod. Unità: byte |
|
|
L' NeuronCore utilizzo durante il periodo di acquisizione dell'allocazione al nodo. NeuronCore Unità: percentuale |
|
|
La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da the NeuronCore che viene allocata al nodo (o i pesi durante l'inferenza). Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al nodo. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al nodo. Si tratta di un'area di memoria riservata ai modelli. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per il runtime di Neuron da NeuronCore che viene allocata al nodo. Unità: byte |
|
|
La quantità di memoria del dispositivo utilizzata per i tensori da NeuronCore that viene allocata al nodo. Unità: byte |
|
|
La quantità totale di memoria utilizzata da NeuronCore that viene allocata al nodo. Unità: byte |
|
|
Il numero totale di errori di esecuzione sul nodo. Viene calcolato dall' CloudWatch agente aggregando gli errori dei seguenti tipi: Unità: numero |
|
|
L'utilizzo totale della memoria del dispositivo Neuron in byte sul nodo. Unità: byte |
|
|
In secondi, la latenza per un'esecuzione sul nodo misurata dal runtime di Neuron. Unità: secondi |
|
|
Il numero di ECC eventi corretti e non corretti per la memoria sul chip SRAM e sul dispositivo del dispositivo Neuron sul nodo. Unità: numero |
AWS Metriche di Elastic Fabric Adapter () EFA
A partire dalla versione 1.300037.0
dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie i parametri di AWS Elastic Fabric Adapter (EFA) dai EKS cluster Amazon su istanze Linux. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva CloudWatch EKS Observability o successiva. v1.5.2-eksbuild.1
Per ulteriori informazioni sul componente aggiuntivo, vedere. Installa l' CloudWatch agente con il EKS componente aggiuntivo Amazon CloudWatch Observability o il grafico Helm Per ulteriori informazioni su AWS Elastic Fabric Adapter, consulta Elastic Fabric Adapter.
Affinché Container Insights raccolga le metriche dell'adattatore AWS Elastic Fabric, devi soddisfare i seguenti prerequisiti:
Devi utilizzare Container Insights con osservabilità avanzata per AmazonEKS, con la versione EKS
v1.5.2-eksbuild.1
aggiuntiva Amazon CloudWatch Observability o successiva.Il plug-in EFA del dispositivo deve essere installato nel cluster. Per ulteriori informazioni, vedere aws-efa-k8 s-device-plugin
su GitHub.
Le metriche raccolte sono elencate nella tabella seguente.
Nome parametro | Dimensioni | Descrizione |
---|---|---|
|
|
Il numero di byte al secondo ricevuti dai EFA dispositivi allocati al contenitore. Unità: byte/secondo |
|
|
Il numero di byte al secondo trasmessi dai EFA dispositivi assegnati al contenitore. Unità: byte/secondo |
|
|
Il numero di pacchetti ricevuti e poi rilasciati dai EFA dispositivi assegnati al contenitore. Unità: conteggio/secondo |
|
|
Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura di accesso diretto alla memoria remota dai EFA dispositivi allocati al contenitore. Unità: byte/secondo |
|
|
Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai EFA dispositivi allocati al contenitore. Unità: byte/secondo |
|
|
Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai EFA dispositivi allocati al contenitore. Unità: byte/secondo |
|
|
Il numero di byte al secondo ricevuti dai EFA dispositivi allocati al pod. Unità: byte/secondo |
|
|
Il numero di byte al secondo trasmessi dai EFA dispositivi assegnati al pod. Unità: byte/secondo |
|
|
Il numero di pacchetti ricevuti e poi rilasciati dai EFA dispositivi assegnati al pod. Unità: conteggio/secondo |
|
|
Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai EFA dispositivi allocati al pod. Unità: byte/secondo |
|
|
Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai EFA dispositivi assegnati al pod. Unità: byte/secondo |
|
|
Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai EFA dispositivi allocati al pod. Unità: byte/secondo |
|
|
Il numero di byte al secondo ricevuti dai EFA dispositivi allocati al nodo. Unità: byte/secondo |
|
|
Il numero di byte al secondo trasmessi dai EFA dispositivi assegnati al nodo. Unità: byte/secondo |
|
|
Il numero di pacchetti ricevuti e poi rilasciati dai EFA dispositivi allocati al nodo. Unità: conteggio/secondo |
|
|
Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura di accesso diretto alla memoria remota dai EFA dispositivi allocati al nodo. Unità: byte/secondo |
|
|
Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai EFA dispositivi allocati al pod. Unità: byte/secondo |
|
|
Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai EFA dispositivi allocati al nodo. Unità: byte/secondo |
Amazon SageMaker AI HyperPod metriche
A partire dalla versione v2.0.1-eksbuild.1
del EKS componente aggiuntivo CloudWatch Observability, Container Insights con osservabilità migliorata per Amazon raccoglie EKS automaticamente le metriche Amazon SageMaker AI HyperPod dai cluster Amazon. EKS Per ulteriori informazioni sul componente aggiuntivo, consulta. Installa l' CloudWatch agente con il EKS componente aggiuntivo Amazon CloudWatch Observability o il grafico Helm Per ulteriori informazioni su Amazon SageMaker AI HyperPod, vedere Amazon SageMaker AI HyperPod.
Le metriche raccolte sono elencate nella tabella seguente.
Nome parametro | Dimensioni | Descrizione |
---|---|---|
|
|
Indica se un nodo è etichettato come da Unità: numero |
|
|
Indica se un nodo è etichettato come da Unità: numero |
|
|
Indica se un nodo è etichettato come da Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da Amazon SageMaker AI HyperPod. Unità: numero |
|
|
Indica se un nodo è etichettato come Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. Amazon SageMaker AI HyperPod Unità: numero |