Allarmi e registri per il monitoraggio delle metriche da endpoint asincroni

Puoi monitorare l' SageMaker intelligenza artificiale utilizzando Amazon CloudWatch, che raccoglie dati grezzi e li elabora in metriche leggibili quasi in tempo reale. Con Amazon CloudWatch, puoi accedere alle informazioni storiche e ottenere una prospettiva migliore sulle prestazioni della tua applicazione o del tuo servizio web. Per ulteriori informazioni su Amazon CloudWatch, consulta What is Amazon CloudWatch?

Monitoraggio con CloudWatch

I parametri riportati di seguito sono un elenco esaustivo di parametri per gli endpoint asincroni e si trovano nello spazio dei nomi AWS/SageMaker. Qualsiasi parametro non elencato di seguito non viene pubblicato se l'endpoint è abilitato per l'inferenza asincrona. Tali parametri includono (ma non sono limitati a):

OverheadLatency
Invocazioni
InvocationsPerInstance

Parametri degli endpoint comuni

Questi parametri sono gli stessi pubblicati oggi per gli endpoint in tempo reale. Per ulteriori informazioni su altre metriche in Amazon CloudWatch, consulta Monitorare l' SageMaker IA con Amazon CloudWatch.

Nome parametro Descrizione Unità/statistiche

Nome parametro	Descrizione	Unità/statistiche
`Invocation4XXErrors`	Numero di richieste in cui il modello ha restituito un codice di risposta HTTP 4xx. Per ogni risposta 4xx, viene inviato 1; altrimenti, viene inviato 0.	Unità: nessuna Statistiche valide: Average, Sum
`Invocation5XXErrors`	Il numero di InvokeEndpoint richieste in cui il modello ha restituito un codice di risposta HTTP 5xx. Per ogni risposta 5xx, viene inviato 1; altrimenti, viene inviato 0.	Unità: nessuna Statistiche valide: Average, Sum
`ModelLatency`	L'intervallo di tempo impiegato da un modello per rispondere visto dall' SageMaker IA. Questo intervallo include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container di un modello e il tempo richiesto per completare l'inferenza nel container.	Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi

Invocation4XXErrors

Numero di richieste in cui il modello ha restituito un codice di risposta HTTP 4xx. Per ogni risposta 4xx, viene inviato 1; altrimenti, viene inviato 0.

Unità: nessuna

Statistiche valide: Average, Sum

Invocation5XXErrors

Il numero di InvokeEndpoint richieste in cui il modello ha restituito un codice di risposta HTTP 5xx. Per ogni risposta 5xx, viene inviato 1; altrimenti, viene inviato 0.

Unità: nessuna

Statistiche valide: Average, Sum

ModelLatency

L'intervallo di tempo impiegato da un modello per rispondere visto dall' SageMaker IA. Questo intervallo include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container di un modello e il tempo richiesto per completare l'inferenza nel container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

Parametri degli endpoint di inferenza asincrona

Questi parametri sono pubblicati per gli endpoint abilitati all'inferenza asincrona. I parametri seguenti sono pubblicati con la dimensione EndpointName.

Nome parametro	Descrizione	Unità/statistiche
`ApproximateBacklogSize`	Il numero di elementi in coda per un endpoint che sono attualmente in fase di elaborazione o che devono ancora essere elaborati.	Unità: numero Statistiche valide: medio, massimo, minimo
`ApproximateBacklogSizePerInstance`	Numero di elementi nella coda diviso per il numero di istanze dietro un endpoint. Questo parametri viene utilizzato principalmente per configurare il dimensionamento automatico delle applicazioni per un endpoint abilitato alla modalità asincrona.	Unità: numero Statistiche valide: medio, massimo, minimo
`ApproximateAgeOfOldestRequest`	Permanenza della richiesta più vecchia in coda.	Unità: secondi Statistiche valide: medio, massimo, minimo
`HasBacklogWithoutCapacity`	Il valore di questo parametro è `1` quando ci sono richieste in coda ma non ci sono istanze dietro l'endpoint. Il valore è `0` in tutti gli altri momenti. Puoi utilizzare questo parametro per scalare automaticamente l'endpoint da zero istanze dopo aver ricevuto una nuova richiesta in coda.	Unità: numero Statistiche valide: media

I parametri seguenti sono pubblicati con le dimensioni EndpointName e VariantName.

Nome parametro	Descrizione	Unità/statistiche
`RequestDownloadFailures`	Quando si verifica un errore di inferenza a causa di un problema durante il download della richiesta da Amazon S3.	Unità: numero Statistiche valide: somma
`ResponseUploadFailures`	Quando si verifica un errore di inferenza a causa di un problema durante il caricamento della risposta su Amazon S3.	Unità: numero Statistiche valide: somma
`NotificationFailures`	Quando si verifica un problema di pubblicazione delle notifiche.	Unità: numero Statistiche valide: somma
`RequestDownloadLatency`	Tempo totale per scaricare il payload di richiesta.	Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ResponseUploadLatency`	Tempo totale per caricare il payload di risposta.	Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ExpiredRequests`	Numero di richieste in coda che non riescono a causa del raggiungimento del TTL della richiesta specificata.	Unità: numero Statistiche valide: somma
`InvocationFailures`	Se una chiamata fallisce per qualsiasi motivo.	Unità: numero Statistiche valide: somma
`InvocationsProcesssed`	Numero di chiamate asincrone elaborate dall'endpoint.	Unità: numero Statistiche valide: somma
`TimeInBacklog`	Tempo totale in cui la richiesta è rimasta in coda prima dell'elaborazione. Questo non include il tempo di elaborazione effettivo (ad esempio tempo di download, tempo di caricamento, latenza del modello).	Unità: millisecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`TotalProcessingTime`	Dal momento in cui la richiesta di inferenza è stata ricevuta dall' SageMaker IA al momento in cui la richiesta ha terminato l'elaborazione. Ciò include il tempo di arretrato e il tempo necessario per caricare e inviare eventuali notifiche di risposta.	Unità: millisecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi

Amazon SageMaker Asynchronous Inference include anche parametri a livello di host. Per informazioni sulle metriche a livello di host, consulta AI Jobs and Endpoint Metrics. SageMaker

Log

Oltre ai log del contenitore Model pubblicati su Amazon CloudWatch nel tuo account, ottieni anche un nuovo registro della piattaforma per tracciare e debuggare le richieste di inferenza.

I nuovi log vengono pubblicati nel gruppo di log endpoint:


/aws/sagemaker/Endpoints/[EndpointName]

Il nome del flusso di log è composto da:


[production-variant-name]/[instance-id]/data-log.

Le righe di registro contengono l'ID di inferenza della richiesta in modo che gli errori possano essere facilmente mappati su una particolare richiesta.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Eliminazione

Controllo dei risultati della previsione