Résultats des recommandations - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résultats des recommandations

Le résultat de chaque tâche Inference Recommender inclut InstanceType, InitialInstanceCount et EnvironmentParameters, qui sont des paramètres de variables d'environnement ajustés pour votre conteneur afin d'améliorer sa latence et son débit. Les résultats incluent également des métriques de performances et de coûts telles que MaxInvocations, ModelLatency, CostPerHour, CostPerInference, CpuUtilization et MemoryUtilization.

Dans le tableau ci-dessous, nous fournissons une description de ces métriques. Ces métriques peuvent vous aider à affiner votre recherche pour trouver la configuration de point de terminaison la mieux adaptée à votre cas d'utilisation. Par exemple, si votre motivation est la performance globale en termes de prix en mettant l'accent sur le débit, vous devez vous concentrer sur CostPerInference.

Métrique Description Cas d’utilisation

ModelLatency

Intervalle de temps nécessaire à un modèle pour répondre, tel qu'il est vu depuis SageMaker. Cet intervalle inclut le temps de communication local pris pour envoyer la requête et pour récupérer la réponse du conteneur d'un modèle et le temps nécessaire pour terminer l'inférence dans le conteneur.

Unités : millisecondes

Charges de travail sensibles à la latence, telles que la diffusion d'annonces et les diagnostics médicaux

MaximumInvocations

Le nombre maximum de demandes InvokeEndpoint envoyées à un point de terminaison de modèle en une minute.

Unités : aucune

Charges de travail axées sur le débit, telles que le traitement vidéo ou l'inférence par lots

CostPerHour

Le coût horaire estimé pour votre point de terminaison en temps réel.

Unités : dollars américains

Charges de travail sensibles aux coûts sans délais de latence

CostPerInference

Le coût horaire estimé par appel d'inférence pour votre point de terminaison en temps réel.

Unités : dollars américains

Optimiser le rapport prix-performance global en mettant l'accent sur le débit

CpuUtilization

L'CPUutilisation prévue au maximum d'appels par minute pour l'instance de point de terminaison.

Unités : pourcentage

Comprenez l'état de santé de l'instance lors de l'analyse comparative en ayant une visibilité sur CPU l'utilisation principale de l'instance

MemoryUtilization

Utilisation prévue de la mémoire pour un nombre maximal d'appels par minute pour l'instance de point de terminaison.

Unités : pourcentage

Comprendre l'état de santé de l'instance lors de l'analyse comparative en ayant une visibilité sur l'utilisation de la mémoire principale de l'instance

Dans certains cas, vous souhaiterez peut-être explorer d'autres métriques d'SageMaker Endpoint Invocation, telles queCPUUtilization. Les résultats de chaque tâche Inference Recommender incluent les noms des points de terminaison générés lors du test de charge. Vous pouvez l'utiliser CloudWatch pour consulter les journaux de ces points de terminaison même après leur suppression.

L'image suivante est un exemple de CloudWatch mesures et de graphiques que vous pouvez consulter pour un seul point de terminaison à partir du résultat de vos recommandations. Le résultat de cette recommandation provient d'une tâche par défaut. Pour interpréter les valeurs scalaires à partir des résultats des recommandations, elles sont basées sur le moment où le graphe Invocations commence à se stabiliser pour la première fois. Par exemple, la valeur ModelLatency signalée se trouve au début du plateau autour de 03:00:31.

Graphiques pour CloudWatch les métriques.

Pour une description complète des CloudWatch métriques utilisées dans les graphiques précédents, consultez la section Metrics SageMaker Endpoint Invocation.

Vous pouvez également consulter les métriques de performances telles que ClientInvocations et NumberOfUsers publiées par Inference Recommender dans l'espace de noms /aws/sagemaker/InferenceRecommendationsJobs. Pour obtenir la liste complète des métriques et des descriptions publiées par Inference Recommender, consultez SageMaker Indicateurs des tâches d'Inference Recommender.

Consultez le bloc-notes Amazon SageMaker Inference Recommender - CloudWatch Metrics Jupyter dans le référentiel amazon-sagemaker-examplesGithub pour découvrir comment utiliser le for AWS SDK Python (Boto3) afin d'explorer les métriques de vos points de terminaison. CloudWatch