CloudWatch Metriche per le implementazioni di endpoint multimodello - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

CloudWatch Metriche per le implementazioni di endpoint multimodello

Amazon SageMaker fornisce parametri per gli endpoint in modo da poter monitorare la frequenza di accesso alla cache, il numero di modelli caricati e i tempi di attesa dei modelli per il caricamento, il download e il caricamento su un endpoint multimodello. Alcune metriche sono diverse CPU e GPU supportate per gli endpoint multimodello, pertanto le sezioni seguenti descrivono i CloudWatch parametri Amazon che puoi utilizzare per ogni tipo di endpoint multimodello.

Per maggiori informazioni sui parametri, consulta Parametri di caricamento del modello di endpoint a più modelli e Parametri dell'istanza del modello di endpoint a più modelli in Monitora Amazon SageMaker con Amazon CloudWatch. I parametri per modello non sono supportati.

CloudWatch metriche per endpoint multimodello supportati CPU

È possibile monitorare le seguenti metriche sugli CPU endpoint multimodello supportati.

Il AWS/SageMaker namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione CloudWatch delle metriche, consulta Amazon GetMetricStatistics CloudWatch APIReference.

Parametri di caricamento del modello di endpoint multi-modello

Parametro Descrizione
ModelLoadingWaitTime

L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelUnloadingTime

L'intervallo di tempo impiegato per scaricare il modello tramite la chiamata del contenitore. UnloadModel API

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelDownloadingTime

L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3).

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelLoadingTime

L'intervallo di tempo impiegato per caricare il modello tramite la chiamata del contenitore. LoadModel API

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelCacheHit

Numero di richieste InvokeEndpoint inviate all'endpoint a più modelli per cui il modello è già stato caricato.

La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato.

Unità: nessuna

Statistiche valide: media, somma, numero di esempi

Dimensioni per i parametri di caricamento del modello endpoint a più modelli

Dimensione Descrizione
EndpointName, VariantName

Filtra i parametri di invocazione dell'endpoint per il valore ProductionVariant dell'endpoint e della variante specificati.

I /aws/sagemaker/Endpoints namespace includono le seguenti metriche di istanza relative alle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione CloudWatch delle metriche, consulta Amazon GetMetricStatistics CloudWatch APIReference.

Parametri dell'istanza del modello endpoint a più modelli

Parametro Descrizione
LoadedModelCount

Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza.

La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza.

La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint.

I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint.

Unità: nessuna

Statistiche valide: media, somma, minimo, massimo, numero di esempi

CPUUtilization

La somma dell'utilizzo di ogni singolo CPU core. L'CPUutilizzo di ogni intervallo di core è compreso tra 0 e 100. Ad esempio, se ce ne sono quattroCPUs, l'CPUUtilizationintervallo è compreso tra 0% e 400%.

Per le varianti di endpoint, il valore è la somma dell'CPUutilizzo dei contenitori primari e supplementari sull'istanza.

Unità: percentuale

MemoryUtilization

Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza.

Unità: percentuale

DiskUtilization

Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza.

Unità: percentuale

CloudWatch metriche per le implementazioni di endpoint multimodello GPU

È possibile monitorare le seguenti metriche sugli endpoint multimodello supportati. GPU

Il AWS/SageMaker namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione CloudWatch delle metriche, consulta Amazon GetMetricStatistics CloudWatch APIReference.

Parametri di caricamento del modello di endpoint multi-modello

Parametro Descrizione
ModelLoadingWaitTime

L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelUnloadingTime

L'intervallo di tempo impiegato per scaricare il modello tramite la chiamata del contenitore. UnloadModel API

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelDownloadingTime

L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3).

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelLoadingTime

L'intervallo di tempo impiegato per caricare il modello tramite la chiamata del contenitore. LoadModel API

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelCacheHit

Numero di richieste InvokeEndpoint inviate all'endpoint a più modelli per cui il modello è già stato caricato.

La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato.

Unità: nessuna

Statistiche valide: media, somma, numero di esempi

Dimensioni per i parametri di caricamento del modello endpoint a più modelli

Dimensione Descrizione
EndpointName, VariantName

Filtra i parametri di invocazione dell'endpoint per il valore ProductionVariant dell'endpoint e della variante specificati.

I /aws/sagemaker/Endpoints namespace includono le seguenti metriche di istanza relative alle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione CloudWatch delle metriche, consulta Amazon GetMetricStatistics CloudWatch APIReference.

Parametri dell'istanza del modello endpoint a più modelli

Parametro Descrizione
LoadedModelCount

Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza.

La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza.

La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint.

I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint.

Unità: nessuna

Statistiche valide: media, somma, minimo, massimo, numero di esempi

CPUUtilization

La somma dell'utilizzo di ogni singolo CPU core. L'CPUutilizzo di ogni intervallo di core è compreso tra 0 e 100. Ad esempio, se ce ne sono quattroCPUs, l'CPUUtilizationintervallo è compreso tra 0% e 400%.

Per le varianti di endpoint, il valore è la somma dell'CPUutilizzo dei contenitori primari e supplementari sull'istanza.

Unità: percentuale

MemoryUtilization

Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza.

Unità: percentuale

GPUUtilization

La percentuale di GPU unità utilizzate dai contenitori su un'istanza. Il valore può variare tra 0 e 100 e viene moltiplicato per il numero di. GPUs Ad esempio, se ce ne sono quattroGPUs, l'GPUUtilizationintervallo è compreso tra 0% e 400%.

Per le varianti di endpoint, il valore è la somma dell'GPUutilizzo dei contenitori primari e supplementari sull'istanza.

Unità: percentuale

GPUMemoryUtilization

La percentuale di GPU memoria utilizzata dai contenitori su un'istanza. L'intervallo di valori è 0‐100 e viene moltiplicato per il numero di. GPUs Ad esempio, se ce ne sono quattroGPUs, l'GPUMemoryUtilizationintervallo è 0%-400%.

Per le varianti degli endpoint, il valore è la somma dell'utilizzo della GPU memoria dei contenitori primari e supplementari sull'istanza.

Unità: percentuale

DiskUtilization

Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza.

Unità: percentuale