Log e parametri della pipeline di inferenza

Il monitoraggio è importante per mantenere l'affidabilità, la disponibilità e le prestazioni delle risorse SageMaker AI di Amazon. Per monitorare e risolvere i problemi delle prestazioni della pipeline di inferenza, usa i CloudWatch log e i messaggi di errore di Amazon. Per informazioni sugli strumenti di monitoraggio forniti dall'intelligenza artificiale, consulta SageMaker . Strumenti per il monitoraggio delle AWS risorse fornite durante l'utilizzo di Amazon SageMaker AI

Utilizzo di parametri per monitorare i modelli multicontainer

Per monitorare i modelli multi-container in Inference Pipelines, usa Amazon. CloudWatch CloudWatchraccoglie dati grezzi e li elabora in metriche leggibili e quasi in tempo reale. SageMaker I job e gli endpoint di formazione basati sull'intelligenza artificiale scrivono CloudWatch metriche e registri nel namespace. AWS/SageMaker

Le seguenti tabelle elencano i parametri e le dimensioni per gli elementi seguenti:

Invocazioni dell'endpoint
Processi di addestramento, processi di trasformazione in batch e istanze di endpoint

Una dimensione è una coppia nome/valore che identifica un parametro in modo univoco. Puoi assegnare a un parametro fino a 10 dimensioni. Per ulteriori informazioni sul monitoraggio con, consulta. CloudWatch Metriche per il monitoraggio di Amazon SageMaker AI con Amazon CloudWatch

Parametri di invocazione dell'endpoint

Lo spazio dei nomi AWS/SageMaker include i seguenti parametri di richiesta dalle chiamate a InvokeEndpoint.

I parametri sono segnalati a intervalli di 1 minuto.

Parametro	Descrizione
`Invocation4XXErrors`	Il numero di `InvokeEndpoint` richieste per le quali il modello ha restituito un codice di `4xx` HTTP risposta. Per ogni `4xx` risposta, SageMaker AI invia un`1`. Unità: nessuna Statistiche valide: `Average`, `Sum`
`Invocation5XXErrors`	Il numero di `InvokeEndpoint` richieste per le quali il modello ha restituito un codice di `5xx` HTTP risposta. Per ogni `5xx` risposta, SageMaker AI invia un`1`. Unità: nessuna Statistiche valide: `Average`, `Sum`
`Invocations`	Richieste `number of InvokeEndpoint` inviate a un endpoint di un modello. Per ottenere il numero totale di richieste inviate a un endpoint di un modello, utilizza la statistica `Sum`. Unità: nessuna Statistiche valide: `Sum`, `Sample Count`
`InvocationsPerInstance`	Il numero di invocazioni degli endpoint inviate a un modello, normalizzato da in ciascuna. `InstanceCount` `ProductionVariant` SageMaker AI invia 1/ `numberOfInstances` come valore per ogni richiesta, dove `numberOfInstances` è il numero di istanze attive per l'endpoint al ProductionVariant momento della richiesta. Unità: nessuna Statistiche valide: `Sum`
`ModelLatency`	Il tempo richiesto dal modello o dai modelli per rispondere. Questo include il tempo richiesto per inviare la richiesta, recuperare la risposta dal container di modello e completare l'inferenza nel container. `ModelLatency` è il tempo totale impiegato da tutti i container in una pipeline di inferenza. Unità: microsecondi Statistiche valide: `Average`, `Sum`, `Min`, `Max`, conteggio di esempio
`OverheadLatency`	Il tempo aggiunto al tempo impiegato per rispondere a una richiesta del cliente da parte di SageMaker AI for overhead. `OverheadLatency`viene misurato dal momento in cui l' SageMaker IA riceve la richiesta fino a quando non restituisce una risposta al client, meno il. `ModelLatency` La latenza di gestione può variare in base alle dimensioni di payload di richiesta e risposta, frequenza delle richieste e autenticazione o autorizzazione della richiesta, tra gli altri fattori. Unità: microsecondi Statistiche valide: `Average`, `Sum`, `Min`, `Max`, `Sample Count`
`ContainerLatency`	Il tempo impiegato da un contenitore Inference Pipelines per rispondere come visualizzato dall'IA. SageMaker `ContainerLatency`include il tempo impiegato per inviare la richiesta, recuperare la risposta dal contenitore del modello e completare l'inferenza nel contenitore. Unità: microsecondi Statistiche valide: `Average`, `Sum`, `Min`, `Max`, `Sample Count`

Dimensioni dei parametri di invocazione dell'endpoint

Dimensione	Descrizione
`EndpointName, VariantName, ContainerName`	Filtra i parametri di invocazione dell'endpoint per un `ProductionVariant` presso l'endpoint specificato e la variante specificata.

Per un endpoint della pipeline di inferenza, CloudWatch elenca le metriche di latenza per contenitore nel tuo account come Endpoint Container Metrics e Endpoint Variant Metrics nello spazio dei nomi AI, come segue. SageMaker Il parametro ContainerLatency viene visualizzato solo per pipeline di inferenza.

La dashboard per CloudWatch una pipeline di inferenza.

Per ogni endpoint e ogni container, i parametri di latenza visualizzano i nomi di container, endpoint, variante e metrica.

Parametri delle istanze endpoint, dei processi di addestramento e dei processi di trasformazione in batch

Gli spazi dei nomi /aws/sagemaker/TrainingJobs, /aws/sagemaker/TransformJobs e /aws/sagemaker/Endpoints includono i seguenti parametri per i processi di addestramento e le istanze endpoint.

I parametri sono segnalati a intervalli di 1 minuto.

Parametro	Descrizione
`CPUUtilization`	La percentuale di CPU unità utilizzate dai contenitori in esecuzione su un'istanza. Il valore varia dallo 0% al 100% e viene moltiplicato per il numero diCPUs. Ad esempio, se ce ne sono quattroCPUs, `CPUUtilization` può variare dallo 0% al 400%. Per i lavori di formazione, `CPUUtilization` è l'CPUutilizzo del contenitore dell'algoritmo in esecuzione sull'istanza. Per i lavori di trasformazione in batch, `CPUUtilization` è l'CPUutilizzo del contenitore di trasformazione in esecuzione sull'istanza. Per i modelli con più contenitori, `CPUUtilization` è la somma dell'CPUutilizzo da parte di tutti i contenitori in esecuzione sull'istanza. Per le varianti di endpoint, `CPUUtilization` è la somma dell'CPUutilizzo da parte di tutti i contenitori in esecuzione sull'istanza. Unità: percentuale
`MemoryUtilization`	Percentuale di memoria utilizzata dai container in esecuzione su un'istanza. Questo valore è compreso tra 0% e 100%. Per i processi di addestramento, `MemoryUtilization` è la memoria utilizzata dal container degli algoritmi in esecuzione sull'istanza. Per i processi di trasformazione in batch, `MemoryUtilization` è la memoria utilizzata dal container di trasformazione in esecuzione sull'istanza. Per i modelli multi-container, `MemoryUtilization` è la somma della memoria utilizzata da tutti i container in esecuzione sull'istanza. Per le varianti di endpoint, `MemoryUtilization` è la somma della memoria utilizzata da tutti i container in esecuzione sull'istanza. Unità: percentuale
`GPUUtilization`	La percentuale di GPU unità utilizzate dai contenitori in esecuzione su un'istanza. `GPUUtilization`varia dallo 0% al 100% e viene moltiplicata per il numero diGPUs. Ad esempio, se ce ne sono quattroGPUs, `GPUUtilization` può variare dallo 0% al 400%. Per i lavori di formazione, `GPUUtilization` viene GPU utilizzato dal contenitore dell'algoritmo in esecuzione sull'istanza. Per i processi di trasformazione in batch, `GPUUtilization` viene GPU utilizzato dal contenitore di trasformazione in esecuzione sull'istanza. Per i modelli con più contenitori, `GPUUtilization` è la somma dei dati GPU utilizzati da tutti i contenitori in esecuzione sull'istanza. Per le varianti degli endpoint, `GPUUtilization` è la somma dei dati GPU utilizzati da tutti i contenitori in esecuzione sull'istanza. Unità: percentuale
`GPUMemoryUtilization`	La percentuale di GPU memoria utilizzata dai contenitori in esecuzione su un'istanza. GPUMemoryUtilizationvaria dallo 0% al 100% e viene moltiplicata per il numero diGPUs. Ad esempio, se ce ne sono quattroGPUs, `GPUMemoryUtilization` può variare dallo 0% al 400%. Per i processi di formazione, `GPUMemoryUtilization` è la GPU memoria utilizzata dal contenitore dell'algoritmo in esecuzione sull'istanza. Per i processi di trasformazione in batch, `GPUMemoryUtilization` è la GPU memoria utilizzata dal contenitore di trasformazione in esecuzione sull'istanza. Per i modelli con più contenitori, `GPUMemoryUtilization` è la somma dei dati GPU utilizzati da tutti i contenitori in esecuzione sull'istanza. Per le varianti degli endpoint, `GPUMemoryUtilization` è la somma della GPU memoria utilizzata da tutti i contenitori in esecuzione sull'istanza. Unità: percentuale
`DiskUtilization`	La percentuale di spazio su disco utilizzata dai contenitori in esecuzione su un'istanza. DiskUtilization varia dallo 0% al 100%. Questo parametro non è supportato per i processi di trasformazione in batch. Per i processi di addestramento, `DiskUtilization` è lo spazio su disco utilizzato dal container degli algoritmi in esecuzione sull'istanza. Per le varianti di endpoint, `DiskUtilization` è la somma dello spazio su disco utilizzato da tutti i container forniti in esecuzione sull'istanza. Unità: percentuale

Dimensioni dei parametri delle istanze dell'endpoint, dei processi di addestramento e dei processi di trasformazione in batch

Dimensione Descrizione

Dimensione	Descrizione
`Host`	Per i processi di addestramento, `Host` ha il formato `[training-job-name]/algo-[instance-number-in-cluster]`. Utilizza questa dimensione per filtrare i parametri di istanza per i processi di addestramento e l'istanza specificati. Questo formato di dimensione è presente solo nello spazio dei nomi `/aws/sagemaker/TrainingJobs`. Per i processi di trasformazione in batch, `Host` ha il formato `[transform-job-name]/[instance-id]`. Utilizza questa dimensione per filtrare i parametri dell'istanza per il processo di trasformazione in batch e l'istanza specificati. Questo formato di dimensione è presente solo nello spazio dei nomi `/aws/sagemaker/TransformJobs`. Per gli endpoint, `Host` ha il formato `[endpoint-name]/[ production-variant-name ]/[instance-id]`. Utilizza questa dimensione per filtrare i parametri di istanza per l'endpoint, la variante e l'istanza specificati. Questo formato di dimensione è presente solo nello spazio dei nomi `/aws/sagemaker/Endpoints`.

Host

Per i processi di addestramento, Host ha il formato [training-job-name]/algo-[instance-number-in-cluster]. Utilizza questa dimensione per filtrare i parametri di istanza per i processi di addestramento e l'istanza specificati. Questo formato di dimensione è presente solo nello spazio dei nomi /aws/sagemaker/TrainingJobs.

Per i processi di trasformazione in batch, Host ha il formato [transform-job-name]/[instance-id]. Utilizza questa dimensione per filtrare i parametri dell'istanza per il processo di trasformazione in batch e l'istanza specificati. Questo formato di dimensione è presente solo nello spazio dei nomi /aws/sagemaker/TransformJobs.

Per gli endpoint, Host ha il formato [endpoint-name]/[ production-variant-name ]/[instance-id]. Utilizza questa dimensione per filtrare i parametri di istanza per l'endpoint, la variante e l'istanza specificati. Questo formato di dimensione è presente solo nello spazio dei nomi /aws/sagemaker/Endpoints.

Per aiutarti a eseguire il debug dei processi di formazione, degli endpoint e delle configurazioni del ciclo di vita delle istanze notebook, l' SageMaker IA invia anche tutto ciò che un contenitore di algoritmi, un contenitore modello o una configurazione del ciclo di vita di un'istanza notebook invia ad Amazon Logs. stdout stderr CloudWatch Puoi utilizzare queste informazioni per il debug e l'analisi dell'avanzamento.

Utilizzo di log per monitorare una pipeline di inferenza

La tabella seguente elenca i gruppi di log e i flussi di log che SageMaker AI. invia ad Amazon CloudWatch

Un flusso di log è una sequenza di eventi di log che condividono la stessa origine. Ogni fonte separata di log in CloudWatch costituisce un flusso di log separato. Un gruppo di log è un gruppo di flussi di log che condividono le stesse impostazioni di conservazione, monitoraggio e controllo degli accessi.

Log

Nome gruppo di log	Nome flusso di log
`/aws/sagemaker/TrainingJobs`	`[training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp]`
`/aws/sagemaker/Endpoints/[EndpointName]`	`[production-variant-name]/[instance-id]`
	`[production-variant-name]/[instance-id]`
	`[production-variant-name]/[instance-id]/[container-name provided in the SageMaker AI model] (For Inference Pipelines)` Per i log delle pipeline di inferenza, se non fornisci nomi di container, CloudWatch usa container-1, container-2 e così via, nell'ordine in cui i contenitori vengono forniti nel modello.
`/aws/sagemaker/NotebookInstances`	`[notebook-instance-name]/[LifecycleConfigHook]`
`/aws/sagemaker/TransformJobs`	`[transform-job-name]/[instance-id]-[epoch_timestamp]`
	`[transform-job-name]/[instance-id]-[epoch_timestamp]/data-log`
	`[transform-job-name]/[instance-id]-[epoch_timestamp]/[container-name provided in the SageMaker AI model] (For Inference Pipelines)` Per i log delle pipeline di inferenza, se non fornisci nomi di container, CloudWatch usa container-1, container-2 e così via, nell'ordine in cui i contenitori vengono forniti nel modello.

Nota

SageMaker L'intelligenza artificiale crea il gruppo di /aws/sagemaker/NotebookInstances log quando si crea un'istanza di notebook con una configurazione del ciclo di vita. Per ulteriori informazioni, consulta Personalizzazione di un'istanza di SageMaker notebook utilizzando uno script LCC.

Per ulteriori informazioni sulla registrazione SageMaker AI, consulta. Gruppi di log e stream inviati da Amazon SageMaker AI ad Amazon CloudWatch Logs

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Trasformazioni Batch

Risoluzione dei problemi