CloudWatch Métriques pour les déploiements de terminaux multimodèles - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

CloudWatch Métriques pour les déploiements de terminaux multimodèles

Amazon SageMaker fournit des statistiques pour les points de terminaison afin que vous puissiez surveiller le taux de réussite du cache, le nombre de modèles chargés et les temps d'attente des modèles pour le chargement, le téléchargement et le chargement sur un point de terminaison multimodèle. Certaines métriques sont différentes pour les points de terminaison multimodèles CPU et les GPU soutiennent. Les sections suivantes décrivent donc les CloudWatch métriques Amazon que vous pouvez utiliser pour chaque type de point de terminaison multimodèle.

Pour plus d'informations, consultez Multi-Model Endpoint Model Loading Metrics (Métriques de chargement du modèle de point de terminaison multi-modèle) et Multi-Model Endpoint Model Instance Metrics (Métriques d'instance de modèles de points de terminaison multi-modèles) dans Mesures de surveillance d'Amazon SageMaker avec Amazon CloudWatch. Les métriques par modèle ne sont pas prises en charge.

CloudWatch métriques pour les points de CPU terminaison multimodèles garantis

Vous pouvez surveiller les mesures suivantes sur les points de terminaison multimodèles CPU sauvegardés.

L'espace de AWS/SageMaker noms inclut les métriques de chargement du modèle suivantes à partir d'appels vers InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques de chargement du modèle de point de terminaison multimodèle

Métrique Description
ModelLoadingWaitTime

Intervalle de temps pendant lequel une demande d'invocation attend le téléchargement ou le chargement du modèle cible, ou les deux, pour effectuer une inférence.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelUnloadingTime

Intervalle de temps nécessaire pour décharger le modèle lors de l'UnloadModelAPIappel du conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelDownloadingTime

Intervalle de temps nécessaire pour télécharger le modèle depuis Amazon Simple Storage Service (Amazon S3).

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelLoadingTime

Intervalle de temps nécessaire pour charger le modèle via l'LoadModelAPIappel du conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelCacheHit

Nombre de demandes InvokeEndpoint envoyées au point de terminaison multimodèle pour lequel le modèle était déjà chargé.

La statistique Average (Moyenne) indique le ratio des demandes pour lesquelles le modèle a déjà été chargé.

Unités : aucune

Statistiques valides : Average (Moyenne), Sum (Somme), Sample Count (Nombre d'exemples)

Dimensions for Multi-Model Endpoint Model Loading Metrics (Dimensions des métriques de chargement du modèle de point de terminaison multimodèle)

Dimension Description
EndpointName, VariantName

Filtre les métriques d'appel de point de terminaison pour un ProductionVariant du point de terminaison et de la variante spécifiés.

Les /aws/sagemaker/Endpoints espaces de noms incluent les métriques d'instance suivantes issues des appels à InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques d'instance de modèle de point de terminaison multimodèle

Métrique Description
LoadedModelCount

Nombre de modèles chargés dans les conteneurs du point de terminaison multimodèle. Cette métrique est émise par instance.

La statistique Average (Moyenne) avec une période de 1 minute indique le nombre moyen de modèles chargés par instance.

La statistique Sum (Somme) indique le nombre total de modèles chargés sur toutes les instances du point de terminaison.

Les modèles que cette métrique suit ne sont pas nécessairement uniques, car un modèle peut être chargé dans plusieurs conteneurs au point de terminaison.

Unités : aucune

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

CPUUtilization

Somme de l'utilisation de chaque CPU cœur individuel. L'CPUutilisation de chaque plage de base est comprise entre 0 et 100. Par exemple, s'il y en a quatreCPUs, la CPUUtilization plage est comprise entre 0 % et 400 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'CPUutilisation des conteneurs principal et supplémentaire sur l'instance.

Unités : pourcentage

MemoryUtilization

Pourcentage de mémoire utilisée par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la mémoire du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

DiskUtilization

Le pourcentage d'espace disque utilisé par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'espace disque du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

CloudWatch métriques pour les GPU déploiements de terminaux multimodèles

Vous pouvez surveiller les mesures suivantes sur les points de terminaison multimodèles GPU sauvegardés.

L'espace de AWS/SageMaker noms inclut les métriques de chargement du modèle suivantes à partir d'appels vers InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques de chargement du modèle de point de terminaison multimodèle

Métrique Description
ModelLoadingWaitTime

Intervalle de temps pendant lequel une demande d'invocation attend le téléchargement ou le chargement du modèle cible, ou les deux, pour effectuer une inférence.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelUnloadingTime

Intervalle de temps nécessaire pour décharger le modèle lors de l'UnloadModelAPIappel du conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelDownloadingTime

Intervalle de temps nécessaire pour télécharger le modèle depuis Amazon Simple Storage Service (Amazon S3).

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelLoadingTime

Intervalle de temps nécessaire pour charger le modèle via l'LoadModelAPIappel du conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelCacheHit

Nombre de demandes InvokeEndpoint envoyées au point de terminaison multimodèle pour lequel le modèle était déjà chargé.

La statistique Average (Moyenne) indique le ratio des demandes pour lesquelles le modèle a déjà été chargé.

Unités : aucune

Statistiques valides : Average (Moyenne), Sum (Somme), Sample Count (Nombre d'exemples)

Dimensions for Multi-Model Endpoint Model Loading Metrics (Dimensions des métriques de chargement du modèle de point de terminaison multimodèle)

Dimension Description
EndpointName, VariantName

Filtre les métriques d'appel de point de terminaison pour un ProductionVariant du point de terminaison et de la variante spécifiés.

Les /aws/sagemaker/Endpoints espaces de noms incluent les métriques d'instance suivantes issues des appels à InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques d'instance de modèle de point de terminaison multimodèle

Métrique Description
LoadedModelCount

Nombre de modèles chargés dans les conteneurs du point de terminaison multimodèle. Cette métrique est émise par instance.

La statistique Average (Moyenne) avec une période de 1 minute indique le nombre moyen de modèles chargés par instance.

La statistique Sum (Somme) indique le nombre total de modèles chargés sur toutes les instances du point de terminaison.

Les modèles que cette métrique suit ne sont pas nécessairement uniques, car un modèle peut être chargé dans plusieurs conteneurs au point de terminaison.

Unités : aucune

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

CPUUtilization

Somme de l'utilisation de chaque CPU cœur individuel. L'CPUutilisation de chaque plage de base est comprise entre 0 et 100. Par exemple, s'il y en a quatreCPUs, la CPUUtilization plage est comprise entre 0 % et 400 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'CPUutilisation des conteneurs principal et supplémentaire sur l'instance.

Unités : pourcentage

MemoryUtilization

Pourcentage de mémoire utilisée par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la mémoire du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

GPUUtilization

Pourcentage d'GPUunités utilisées par les conteneurs sur une instance. La valeur comprise entre 0 et 100 est multipliée par le nombre de. GPUs Par exemple, s'il y en a quatreGPUs, la GPUUtilization plage est comprise entre 0 % et 400 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'GPUutilisation des conteneurs principal et supplémentaire sur l'instance.

Unités : pourcentage

GPUMemoryUtilization

Pourcentage de GPU mémoire utilisé par les conteneurs d'une instance. La plage de valeurs est comprise entre 0 et 100 et est multipliée par le nombre de. GPUs Par exemple, s'il y en a quatreGPUs, la GPUMemoryUtilization plage est comprise entre 0 % et 400 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la GPU mémoire des conteneurs principal et supplémentaire de l'instance.

Unités : pourcentage

DiskUtilization

Le pourcentage d'espace disque utilisé par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'espace disque du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage