Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

CloudWatch Métriques pour les déploiements de terminaux multimodèles

Mode de mise au point
CloudWatch Métriques pour les déploiements de terminaux multimodèles - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon SageMaker AI fournit des métriques pour les points de terminaison afin que vous puissiez surveiller le taux de réussite du cache, le nombre de modèles chargés et les temps d'attente des modèles pour le chargement, le téléchargement et le chargement sur un point de terminaison multimodèle. Certaines métriques sont différentes pour les points de terminaison multimodèles soutenus par le processeur et le GPU. Les sections suivantes décrivent donc les CloudWatch métriques Amazon que vous pouvez utiliser pour chaque type de point de terminaison multimodèle.

Pour plus d'informations, consultez Multi-Model Endpoint Model Loading Metrics (Métriques de chargement du modèle de point de terminaison multi-modèle) et Multi-Model Endpoint Model Instance Metrics (Métriques d'instance de modèles de points de terminaison multi-modèles) dans Mesures de surveillance d'Amazon SageMaker AI avec Amazon CloudWatch. Les métriques par modèle ne sont pas prises en charge.

CloudWatch métriques pour les points de terminaison multimodèles dotés d'un processeur

Vous pouvez surveiller les métriques suivantes sur les points de terminaison multi-modèles basés sur des processeurs.

L'espace de AWS/SageMaker noms inclut les métriques de chargement du modèle suivantes à partir d'appels vers InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques de chargement du modèle de point de terminaison multimodèle

Métrique Description
ModelLoadingWaitTime

Intervalle de temps pendant lequel une demande d'invocation attend le téléchargement ou le chargement du modèle cible, ou les deux, pour effectuer une inférence.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelUnloadingTime

Intervalle de temps nécessaire pour décharger le modèle via l'appel d'API UnloadModel du conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelDownloadingTime

Intervalle de temps nécessaire pour télécharger le modèle depuis Amazon Simple Storage Service (Amazon S3).

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelLoadingTime

Intervalle de temps nécessaire pour charger le modèle via l'appel de l'API LoadModel du conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelCacheHit

Nombre de demandes InvokeEndpoint envoyées au point de terminaison multimodèle pour lequel le modèle était déjà chargé.

La statistique Average (Moyenne) indique le ratio des demandes pour lesquelles le modèle a déjà été chargé.

Unités : aucune

Statistiques valides : Average (Moyenne), Sum (Somme), Sample Count (Nombre d'exemples)

Dimensions for Multi-Model Endpoint Model Loading Metrics (Dimensions des métriques de chargement du modèle de point de terminaison multimodèle)

Dimension Description
EndpointName, VariantName

Filtre les métriques d'appel de point de terminaison pour un ProductionVariant du point de terminaison et de la variante spécifiés.

Les espaces de noms /aws/sagemaker/Endpoints incluent les métriques d'instance suivantes des appels vers InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques d'instance de modèle de point de terminaison multimodèle

Métrique Description
LoadedModelCount

Nombre de modèles chargés dans les conteneurs du point de terminaison multimodèle. Cette métrique est émise par instance.

La statistique Average (Moyenne) avec une période de 1 minute indique le nombre moyen de modèles chargés par instance.

La statistique Sum (Somme) indique le nombre total de modèles chargés sur toutes les instances du point de terminaison.

Les modèles que cette métrique suit ne sont pas nécessairement uniques, car un modèle peut être chargé dans plusieurs conteneurs au point de terminaison.

Unités : aucune

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

CPUUtilization

La somme de l'utilisation de chaque cœur de processeur individuel. L'utilisation du processeur de chaque cœur peut aller de 0 à 100. Par exemple, s'il y en a quatre CPUs, la CPUUtilization plage est comprise entre 0 % et 400 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'UC du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

MemoryUtilization

Pourcentage de mémoire utilisée par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la mémoire du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

DiskUtilization

Le pourcentage d'espace disque utilisé par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'espace disque du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

CloudWatch métriques pour les déploiements de terminaux multi-modèles GPU

Vous pouvez surveiller les métriques suivantes sur les points de terminaison multi-modèles basés sur des GPU.

L'espace de AWS/SageMaker noms inclut les métriques de chargement du modèle suivantes à partir d'appels vers InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques de chargement du modèle de point de terminaison multimodèle

Métrique Description
ModelLoadingWaitTime

Intervalle de temps pendant lequel une demande d'invocation attend le téléchargement ou le chargement du modèle cible, ou les deux, pour effectuer une inférence.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelUnloadingTime

Intervalle de temps nécessaire pour décharger le modèle via l'appel d'API UnloadModel du conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelDownloadingTime

Intervalle de temps nécessaire pour télécharger le modèle depuis Amazon Simple Storage Service (Amazon S3).

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelLoadingTime

Intervalle de temps nécessaire pour charger le modèle via l'appel de l'API LoadModel du conteneur.

Unités : microsecondes

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

ModelCacheHit

Nombre de demandes InvokeEndpoint envoyées au point de terminaison multimodèle pour lequel le modèle était déjà chargé.

La statistique Average (Moyenne) indique le ratio des demandes pour lesquelles le modèle a déjà été chargé.

Unités : aucune

Statistiques valides : Average (Moyenne), Sum (Somme), Sample Count (Nombre d'exemples)

Dimensions for Multi-Model Endpoint Model Loading Metrics (Dimensions des métriques de chargement du modèle de point de terminaison multimodèle)

Dimension Description
EndpointName, VariantName

Filtre les métriques d'appel de point de terminaison pour un ProductionVariant du point de terminaison et de la variante spécifiés.

Les espaces de noms /aws/sagemaker/Endpoints incluent les métriques d'instance suivantes des appels vers InvokeEndpoint.

Les métriques sont disponibles à la fréquence d'une (1) minute.

Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.

Métriques d'instance de modèle de point de terminaison multimodèle

Métrique Description
LoadedModelCount

Nombre de modèles chargés dans les conteneurs du point de terminaison multimodèle. Cette métrique est émise par instance.

La statistique Average (Moyenne) avec une période de 1 minute indique le nombre moyen de modèles chargés par instance.

La statistique Sum (Somme) indique le nombre total de modèles chargés sur toutes les instances du point de terminaison.

Les modèles que cette métrique suit ne sont pas nécessairement uniques, car un modèle peut être chargé dans plusieurs conteneurs au point de terminaison.

Unités : aucune

Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage

CPUUtilization

La somme de l'utilisation de chaque cœur de processeur individuel. L'utilisation du processeur de chaque cœur peut aller de 0 à 100. Par exemple, s'il y en a quatre CPUs, la CPUUtilization plage est comprise entre 0 % et 400 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'UC du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

MemoryUtilization

Pourcentage de mémoire utilisée par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la mémoire du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

GPUUtilization

Pourcentage d'unités GPU utilisées par les conteneurs sur une instance. La valeur comprise entre 0 et 100 est multipliée par le nombre de. GPUs Par exemple, s'il y en a quatre GPUs, la GPUUtilization plage est comprise entre 0 % et 400 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation d'unités GPU du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

GPUMemoryUtilization

Pourcentage de mémoire GPU utilisée par les conteneurs sur une instance. La plage de valeurs est comprise entre 0 et 100 et est multipliée par le nombre de. GPUs Par exemple, s'il y en a quatre GPUs, la GPUMemoryUtilization plage est comprise entre 0 % et 400 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la mémoire GPU du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

DiskUtilization

Le pourcentage d'espace disque utilisé par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %.

Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'espace disque du conteneur principal et des conteneurs supplémentaires sur l'instance.

Unités : pourcentage

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.