CloudWatch Métriques pour les déploiements de terminaux multimodèles

Mode de mise au point

CloudWatch Métriques pour les déploiements de terminaux multimodèles - Amazon SageMaker AI

CloudWatch métriques pour les points de terminaison multimodèles dotés d'un processeur CloudWatch métriques pour les déploiements de terminaux multi-modèles GPU

Amazon SageMaker AI fournit des métriques pour les points de terminaison afin que vous puissiez surveiller le taux de réussite du cache, le nombre de modèles chargés et les temps d'attente des modèles pour le chargement, le téléchargement et le chargement sur un point de terminaison multimodèle. Certaines métriques sont différentes pour les points de terminaison multimodèles soutenus par le processeur et le GPU. Les sections suivantes décrivent donc les CloudWatch métriques Amazon que vous pouvez utiliser pour chaque type de point de terminaison multimodèle.

Pour plus d'informations, consultez Multi-Model Endpoint Model Loading Metrics (Métriques de chargement du modèle de point de terminaison multi-modèle) et Multi-Model Endpoint Model Instance Metrics (Métriques d'instance de modèles de points de terminaison multi-modèles) dans Mesures de surveillance d'Amazon SageMaker AI avec Amazon CloudWatch. Les métriques par modèle ne sont pas prises en charge.

CloudWatch métriques pour les points de terminaison multimodèles dotés d'un processeur

Vous pouvez surveiller les métriques suivantes sur les points de terminaison multi-modèles basés sur des processeurs.

L'espace de AWS/SageMaker noms inclut les métriques de chargement du modèle suivantes à partir d'appels vers InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques de chargement du modèle de point de terminaison multimodèle

Métrique	Description
`ModelLoadingWaitTime`	Intervalle de temps pendant lequel une demande d'invocation attend le téléchargement ou le chargement du modèle cible, ou les deux, pour effectuer une inférence. Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage
`ModelUnloadingTime`	Intervalle de temps nécessaire pour décharger le modèle via l'appel d'API `UnloadModel` du conteneur. Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage
`ModelDownloadingTime`	Intervalle de temps nécessaire pour télécharger le modèle depuis Amazon Simple Storage Service (Amazon S3). Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage
`ModelLoadingTime`	Intervalle de temps nécessaire pour charger le modèle via l'appel de l'API `LoadModel` du conteneur. Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage
`ModelCacheHit`	Nombre de demandes `InvokeEndpoint` envoyées au point de terminaison multimodèle pour lequel le modèle était déjà chargé. La statistique Average (Moyenne) indique le ratio des demandes pour lesquelles le modèle a déjà été chargé. Unités : aucune Statistiques valides : Average (Moyenne), Sum (Somme), Sample Count (Nombre d'exemples)

Dimensions for Multi-Model Endpoint Model Loading Metrics (Dimensions des métriques de chargement du modèle de point de terminaison multimodèle)

Dimension	Description
`EndpointName, VariantName`	Filtre les métriques d'appel de point de terminaison pour un `ProductionVariant` du point de terminaison et de la variante spécifiés.

Les espaces de noms /aws/sagemaker/Endpoints incluent les métriques d'instance suivantes des appels vers InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques d'instance de modèle de point de terminaison multimodèle

Métrique	Description
`LoadedModelCount`	Nombre de modèles chargés dans les conteneurs du point de terminaison multimodèle. Cette métrique est émise par instance. La statistique Average (Moyenne) avec une période de 1 minute indique le nombre moyen de modèles chargés par instance. La statistique Sum (Somme) indique le nombre total de modèles chargés sur toutes les instances du point de terminaison. Les modèles que cette métrique suit ne sont pas nécessairement uniques, car un modèle peut être chargé dans plusieurs conteneurs au point de terminaison. Unités : aucune Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage
`CPUUtilization`	La somme de l'utilisation de chaque cœur de processeur individuel. L'utilisation du processeur de chaque cœur peut aller de 0 à 100. Par exemple, s'il y en a quatre CPUs, la `CPUUtilization` plage est comprise entre 0 % et 400 %. Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'UC du conteneur principal et des conteneurs supplémentaires sur l'instance. Unités : pourcentage
`MemoryUtilization`	Pourcentage de mémoire utilisée par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %. Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la mémoire du conteneur principal et des conteneurs supplémentaires sur l'instance. Unités : pourcentage
`DiskUtilization`	Le pourcentage d'espace disque utilisé par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %. Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'espace disque du conteneur principal et des conteneurs supplémentaires sur l'instance. Unités : pourcentage