Allarmi e registri per il monitoraggio delle metriche da endpoint asincroni - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Allarmi e registri per il monitoraggio delle metriche da endpoint asincroni

Puoi monitorare l' SageMaker intelligenza artificiale utilizzando Amazon CloudWatch, che raccoglie dati grezzi e li elabora in metriche leggibili quasi in tempo reale. Con Amazon CloudWatch, puoi accedere alle informazioni storiche e ottenere una prospettiva migliore sulle prestazioni della tua applicazione o del tuo servizio web. Per ulteriori informazioni su Amazon CloudWatch, consulta What is Amazon CloudWatch?

Monitoraggio con CloudWatch

I parametri riportati di seguito sono un elenco esaustivo di parametri per gli endpoint asincroni e si trovano nello spazio dei nomi AWS/SageMaker. Qualsiasi parametro non elencato di seguito non viene pubblicato se l'endpoint è abilitato per l'inferenza asincrona. Tali parametri includono (ma non sono limitati a):

  • OverheadLatency

  • Invocazioni

  • InvocationsPerInstance

Parametri degli endpoint comuni

Questi parametri sono gli stessi pubblicati oggi per gli endpoint in tempo reale. Per ulteriori informazioni su altre metriche in Amazon CloudWatch, consulta Monitorare l' SageMaker IA con Amazon CloudWatch.

Nome parametro Descrizione Unità/statistiche

Invocation4XXErrors

Numero di richieste in cui il modello ha restituito un codice di risposta HTTP 4xx. Per ogni risposta 4xx, viene inviato 1; altrimenti, viene inviato 0.

Unità: nessuna

Statistiche valide: Average, Sum

Invocation5XXErrors

Il numero di InvokeEndpoint richieste in cui il modello ha restituito un codice di risposta HTTP 5xx. Per ogni risposta 5xx, viene inviato 1; altrimenti, viene inviato 0.

Unità: nessuna

Statistiche valide: Average, Sum

ModelLatency

L'intervallo di tempo impiegato da un modello per rispondere visto dall' SageMaker IA. Questo intervallo include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container di un modello e il tempo richiesto per completare l'inferenza nel container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

Parametri degli endpoint di inferenza asincrona

Questi parametri sono pubblicati per gli endpoint abilitati all'inferenza asincrona. I parametri seguenti sono pubblicati con la dimensione EndpointName.

Nome parametro Descrizione Unità/statistiche

ApproximateBacklogSize

Il numero di elementi in coda per un endpoint che sono attualmente in fase di elaborazione o che devono ancora essere elaborati.

Unità: numero

Statistiche valide: medio, massimo, minimo

ApproximateBacklogSizePerInstance

Numero di elementi nella coda diviso per il numero di istanze dietro un endpoint. Questo parametri viene utilizzato principalmente per configurare il dimensionamento automatico delle applicazioni per un endpoint abilitato alla modalità asincrona.

Unità: numero

Statistiche valide: medio, massimo, minimo

ApproximateAgeOfOldestRequest

Permanenza della richiesta più vecchia in coda.

Unità: secondi

Statistiche valide: medio, massimo, minimo

HasBacklogWithoutCapacity

Il valore di questo parametro è 1 quando ci sono richieste in coda ma non ci sono istanze dietro l'endpoint. Il valore è 0 in tutti gli altri momenti. Puoi utilizzare questo parametro per scalare automaticamente l'endpoint da zero istanze dopo aver ricevuto una nuova richiesta in coda.

Unità: numero

Statistiche valide: media

I parametri seguenti sono pubblicati con le dimensioni EndpointName e VariantName.

Nome parametro Descrizione Unità/statistiche

RequestDownloadFailures

Quando si verifica un errore di inferenza a causa di un problema durante il download della richiesta da Amazon S3.

Unità: numero

Statistiche valide: somma

ResponseUploadFailures

Quando si verifica un errore di inferenza a causa di un problema durante il caricamento della risposta su Amazon S3.

Unità: numero

Statistiche valide: somma

NotificationFailures

Quando si verifica un problema di pubblicazione delle notifiche.

Unità: numero

Statistiche valide: somma

RequestDownloadLatency

Tempo totale per scaricare il payload di richiesta.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ResponseUploadLatency

Tempo totale per caricare il payload di risposta.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ExpiredRequests

Numero di richieste in coda che non riescono a causa del raggiungimento del TTL della richiesta specificata.

Unità: numero

Statistiche valide: somma

InvocationFailures

Se una chiamata fallisce per qualsiasi motivo.

Unità: numero

Statistiche valide: somma

InvocationsProcesssed

Numero di chiamate asincrone elaborate dall'endpoint.

Unità: numero

Statistiche valide: somma

TimeInBacklog

Tempo totale in cui la richiesta è rimasta in coda prima dell'elaborazione. Questo non include il tempo di elaborazione effettivo (ad esempio tempo di download, tempo di caricamento, latenza del modello).

Unità: millisecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

TotalProcessingTime

Dal momento in cui la richiesta di inferenza è stata ricevuta dall' SageMaker IA al momento in cui la richiesta ha terminato l'elaborazione. Ciò include il tempo di arretrato e il tempo necessario per caricare e inviare eventuali notifiche di risposta.

Unità: millisecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

Amazon SageMaker Asynchronous Inference include anche parametri a livello di host. Per informazioni sulle metriche a livello di host, consulta AI Jobs and Endpoint Metrics. SageMaker

Log

Oltre ai log del contenitore Model pubblicati su Amazon CloudWatch nel tuo account, ottieni anche un nuovo registro della piattaforma per tracciare e debuggare le richieste di inferenza.

I nuovi log vengono pubblicati nel gruppo di log endpoint:

/aws/sagemaker/Endpoints/[EndpointName]

Il nome del flusso di log è composto da:

[production-variant-name]/[instance-id]/data-log.

Le righe di registro contengono l'ID di inferenza della richiesta in modo che gli errori possano essere facilmente mappati su una particolare richiesta.