Alarmes et journaux pour le suivi des métriques provenant de points de terminaison asynchrones - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Alarmes et journaux pour le suivi des métriques provenant de points de terminaison asynchrones

Vous pouvez surveiller l' SageMaker IA à l'aide d'Amazon CloudWatch, qui collecte les données brutes et les transforme en indicateurs lisibles en temps quasi réel. Avec Amazon CloudWatch, vous pouvez accéder à des informations historiques et avoir une meilleure idée des performances de votre application ou service Web. Pour plus d'informations sur Amazon CloudWatch, consultez Qu'est-ce qu'Amazon CloudWatch ?

Surveillance avec CloudWatch

Voici une liste exhaustive des métriques pour les points de terminaison asynchrones qui figurent dans l'espace de noms AWS/SageMaker. Toute métrique n'apparaissant pas n'est pas publiée si le point de terminaison est activé pour l'inférence asynchrone. Ces métriques incluent (sans s'y limiter) :

  • OverheadLatency

  • Invocations

  • InvocationsPerInstance

Métriques de point de terminaison courantes

Ces métriques sont les mêmes que celles publiées aujourd'hui pour les points de terminaison en temps réel. Pour plus d'informations sur les autres statistiques d'Amazon CloudWatch, consultez Monitor SageMaker AI with Amazon CloudWatch.

Nom de la métrique Description Unité/Statistiques

Invocation4XXErrors

Nombre de demandes dans lesquelles le modèle a retourné un code de réponse HTTP 4xx. Pour chaque réponse 4xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée.

Unités : aucune

Statistiques valides : Moyenne, somme

Invocation5XXErrors

Nombre de InvokeEndpoint requêtes pour lesquelles le modèle a renvoyé un code de réponse HTTP 5xx. Pour chaque réponse 5xx, 1 est envoyé. Dans le cas contraire, la valeur 0 est envoyée.

Unités : aucune

Statistiques valides : Moyenne, somme

ModelLatency

Intervalle de temps nécessaire à un modèle pour répondre tel qu'il est vu par l' SageMaker IA. Cet intervalle inclut le temps de communication local pris pour envoyer la requête et pour récupérer la réponse du conteneur d'un modèle et le temps nécessaire pour terminer l'inférence dans le conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

Métriques de point de terminaison d'inférence asynchrone

Ces métriques sont publiées pour les points de terminaison activés pour l'inférence asynchrone. Les métriques suivantes sont publiées avec la dimension EndpointName :

Nom de la métrique Description Unité/Statistiques

ApproximateBacklogSize

Nombre d'éléments dans la file d'attente d'un point de terminaison en cours de traitement ou à traiter.

Unités : nombre

Statistiques valides : moyenne, maximum, minimum

ApproximateBacklogSizePerInstance

Nombre d'éléments de la file d'attente divisé par le nombre d'instances derrière un point de terminaison. Cette métrique est principalement utilisée pour configurer la scalabilité automatique des applications pour un point de terminaison asynchrone.

Unités : nombre

Statistiques valides : moyenne, maximum, minimum

ApproximateAgeOfOldestRequest

Âge de la requête la plus ancienne de la file d'attente.

Unités : secondes

Statistiques valides : moyenne, maximum, minimum

HasBacklogWithoutCapacity

La valeur de cette métrique est 1 lorsqu'il y a des demandes dans la file d'attente, mais zéro instance derrière le point de terminaison. La valeur est 0 à tout autre moment. Vous pouvez utiliser cette métrique pour mettre automatiquement à l'échelle votre point de terminaison à partir de zéro instance dès réception d'une nouvelle demande dans la file d'attente.

Unités : nombre

Statistiques valides : Moyenne

Les métriques suivantes sont publiées avec les dimensions EndpointName et VariantName :

Nom de la métrique Description Unité/Statistiques

RequestDownloadFailures

Lorsqu'un échec d'inférence survient en raison d'un problème lors du téléchargement de la requête depuis Amazon S3.

Unités : nombre

Statistiques valides : somme

ResponseUploadFailures

Lorsqu'un échec d'inférence survient en raison d'un problème lors du chargement de la réponse vers Amazon S3.

Unités : nombre

Statistiques valides : somme

NotificationFailures

Lorsqu'un problème survient pendant la publication de notifications.

Unités : nombre

Statistiques valides : somme

RequestDownloadLatency

Temps total de téléchargement de la charge utile de la requête.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ResponseUploadLatency

Temps total de chargement de la charge utile de la réponse.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ExpiredRequests

Nombre de requêtes dans la file d'attente qui échouent en raison de leur durée de vie de requête spécifiée.

Unités : nombre

Statistiques valides : somme

InvocationFailures

Si une invocation échoue pour quelque raison que ce soit.

Unités : nombre

Statistiques valides : somme

InvocationsProcesssed

Nombre d'invocations asynchrones traitées par le point de terminaison.

Unités : nombre

Statistiques valides : somme

TimeInBacklog

Durée totale pendant laquelle la requête a été mise en file d'attente avant d'être traitée. Cela n'inclut pas le temps de traitement réel (c'est-à-dire le temps de téléchargement, le temps de chargement, la latence du modèle).

Unités : millisecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

TotalProcessingTime

Heure à laquelle la demande d'inférence a été reçue par l' SageMaker IA par rapport à la fin du traitement de la demande. Cela inclut le temps dans le backlog et le temps nécessaire pour charger et envoyer des notifications de réponse, le cas échéant.

Unités : millisecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

Amazon SageMaker Asynchronous Inference inclut également des métriques au niveau de l'hôte. Pour plus d'informations sur les métriques au niveau de l'hôte, consultez les rubriques SageMaker AI Jobs et Endpoint Metrics.

Journaux

Outre les journaux des conteneurs Model publiés sur Amazon CloudWatch dans votre compte, vous bénéficiez également d'un nouveau journal de plateforme pour le suivi et le débogage des demandes d'inférence.

Les nouveaux journaux sont publiés sous le groupe de journaux de points de terminaison :

/aws/sagemaker/Endpoints/[EndpointName]

Le nom de flux de journaux est composé des éléments suivants :

[production-variant-name]/[instance-id]/data-log.

Les lignes des journaux contiennent l'ID d'inférence de la requête, de sorte que les erreurs peuvent être facilement mappées à une requête particulière.