Risultati delle raccomandazioni - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risultati delle raccomandazioni

Ogni risultato del processo del suggeritore di inferenza include InstanceType, InitialInstanceCount e EnvironmentParameters, che sono parametri di variabili di ambiente ottimizzati per il container per migliorarne la latenza e il throughput. I risultati includono anche parametri relativi a prestazioni e costi come MaxInvocations, ModelLatency, CostPerHour, CostPerInference, CpuUtilization e MemoryUtilization.

Nella tabella seguente forniamo una descrizione di questi parametri. Questi parametri possono aiutarti a restringere la ricerca per trovare la migliore configurazione di endpoint adatta al proprio caso d'uso. Ad esempio, se si ritiene importante il rapporto prezzo/prestazioni complessive con un'enfasi sulla produttività, allora è opportuno concentrarsi su CostPerInference.

Parametro Descrizione Caso d'uso

ModelLatency

L'intervallo di tempo impiegato da un modello per rispondere dal SageMaker punto di vista. Questo intervallo include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container di un modello e il tempo richiesto per completare l'inferenza nel container.

Unità: millisecondi

Carichi di lavoro sensibili alla latenza, come la pubblicazione di annunci e le diagnosi mediche

MaximumInvocations

Il numero massimo di richieste InvokeEndpoint inviate a un endpoint del modello in un minuto.

Unità: nessuna

Carichi di lavoro incentrati sul throughput, come l'elaborazione video o l'inferenza in batch

CostPerHour

Il costo orario stimato per il proprio endpoint in tempo reale.

Unità: dollari americani

Carichi di lavoro sensibili ai costi senza termini di latenza

CostPerInference

Il costo stimato per chiamata di inferenza per l'endpoint in tempo reale.

Unità: dollari americani

Massimizza il rapporto prezzo/prestazioni complessive con particolare attenzione al throughput

CpuUtilization

L'CPUutilizzo previsto al numero massimo di chiamate al minuto per l'istanza dell'endpoint.

Unità: percentuale

Comprendi lo stato dell'istanza durante il benchmarking grazie alla visibilità sull'utilizzo principale dell'istanza CPU

MemoryUtilization

L'utilizzo della memoria previsto al massimo numero di invocazioni al minuto per l'istanza dell'endpoint.

Unità: percentuale

Comprendi lo stato dell'istanza durante il benchmarking grazie alla visibilità sull'utilizzo della memoria principale dell'istanza

In alcuni casi potresti voler esplorare altre metriche di SageMaker Endpoint Invocation come. CPUUtilization Ogni risultato del processo del suggeritore di inferenza include i nomi degli endpoint attivati durante il test di carico. Puoi utilizzarli CloudWatch per rivedere i log di questi endpoint anche dopo che sono stati eliminati.

L'immagine seguente è un esempio di CloudWatch metriche e grafici che puoi esaminare per un singolo endpoint in base ai risultati delle tue raccomandazioni. Questo risultato delle raccomandazioni deriva da un processo predefinito. Il modo di interpretare i valori scalari dei risultati delle raccomandazioni consiste nel fatto che si basano sul momento in cui il grafico delle invocazioni inizia ad appianarsi per la prima volta. Ad esempio, il valore ModelLatency riportato si trova all'inizio del plateau intorno a 03:00:31.

Grafici per CloudWatch le metriche.

Per le descrizioni complete delle CloudWatch metriche utilizzate nei grafici precedenti, consulta le metriche di SageMaker Endpoint Invocation.

Puoi anche vedere parametri delle prestazioni come ClientInvocations e NumberOfUsers pubblicati dal suggeritore di inferenza nello spazio dei nomi /aws/sagemaker/InferenceRecommendationsJobs. Per un elenco completo di parametri e descrizioni pubblicati dal suggeritore di inferenza, consulta SageMaker Metriche dei lavori di Inference Recommender.

Consulta il notebook Amazon SageMaker Inference Recommender - CloudWatch Metrics Jupyter nel repository amazon-sagemaker-examplesGithub per un esempio di come usare for AWS SDK Python (Boto3) per esplorare i parametri per i tuoi endpoint. CloudWatch