Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
CloudWatch Métriques pour les déploiements de terminaux multimodèles
Amazon SageMaker fournit des statistiques pour les points de terminaison afin que vous puissiez surveiller le taux de réussite du cache, le nombre de modèles chargés et les temps d'attente des modèles pour le chargement, le téléchargement et le chargement sur un point de terminaison multimodèle. Certaines métriques sont différentes pour les points de terminaison multimodèles CPU et les GPU soutiennent. Les sections suivantes décrivent donc les CloudWatch métriques Amazon que vous pouvez utiliser pour chaque type de point de terminaison multimodèle.
Pour plus d'informations, consultez Multi-Model Endpoint Model Loading Metrics (Métriques de chargement du modèle de point de terminaison multi-modèle) et Multi-Model Endpoint Model Instance Metrics (Métriques d'instance de modèles de points de terminaison multi-modèles) dans Mesures de surveillance d'Amazon SageMaker avec Amazon CloudWatch. Les métriques par modèle ne sont pas prises en charge.
CloudWatch métriques pour les points de CPU terminaison multimodèles garantis
Vous pouvez surveiller les mesures suivantes sur les points de terminaison multimodèles CPU sauvegardés.
L'espace de AWS/SageMaker
noms inclut les métriques de chargement du modèle suivantes à partir d'appels vers InvokeEndpoint.
Les métriques sont disponibles à la fréquence d'une (1) minute.
Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.
Métriques de chargement du modèle de point de terminaison multimodèle
Métrique | Description |
---|---|
ModelLoadingWaitTime |
Intervalle de temps pendant lequel une demande d'invocation attend le téléchargement ou le chargement du modèle cible, ou les deux, pour effectuer une inférence. Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
ModelUnloadingTime |
Intervalle de temps nécessaire pour décharger le modèle lors de l' Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
ModelDownloadingTime |
Intervalle de temps nécessaire pour télécharger le modèle depuis Amazon Simple Storage Service (Amazon S3). Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
ModelLoadingTime |
Intervalle de temps nécessaire pour charger le modèle via l' Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
ModelCacheHit |
Nombre de demandes La statistique Average (Moyenne) indique le ratio des demandes pour lesquelles le modèle a déjà été chargé. Unités : aucune Statistiques valides : Average (Moyenne), Sum (Somme), Sample Count (Nombre d'exemples) |
Dimensions for Multi-Model Endpoint Model Loading Metrics (Dimensions des métriques de chargement du modèle de point de terminaison multimodèle)
Dimension | Description |
---|---|
EndpointName, VariantName |
Filtre les métriques d'appel de point de terminaison pour un |
Les /aws/sagemaker/Endpoints
espaces de noms incluent les métriques d'instance suivantes issues des appels à InvokeEndpoint.
Les métriques sont disponibles à la fréquence d'une (1) minute.
Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.
Métriques d'instance de modèle de point de terminaison multimodèle
Métrique | Description |
---|---|
LoadedModelCount |
Nombre de modèles chargés dans les conteneurs du point de terminaison multimodèle. Cette métrique est émise par instance. La statistique Average (Moyenne) avec une période de 1 minute indique le nombre moyen de modèles chargés par instance. La statistique Sum (Somme) indique le nombre total de modèles chargés sur toutes les instances du point de terminaison. Les modèles que cette métrique suit ne sont pas nécessairement uniques, car un modèle peut être chargé dans plusieurs conteneurs au point de terminaison. Unités : aucune Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
CPUUtilization |
Somme de l'utilisation de chaque CPU cœur individuel. L'CPUutilisation de chaque plage de base est comprise entre 0 et 100. Par exemple, s'il y en a quatreCPUs, la Pour les variantes de point de terminaison, la valeur est la somme de l'CPUutilisation des conteneurs principal et supplémentaire sur l'instance. Unités : pourcentage |
MemoryUtilization |
Pourcentage de mémoire utilisée par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %. Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la mémoire du conteneur principal et des conteneurs supplémentaires sur l'instance. Unités : pourcentage |
DiskUtilization |
Le pourcentage d'espace disque utilisé par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %. Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'espace disque du conteneur principal et des conteneurs supplémentaires sur l'instance. Unités : pourcentage |
CloudWatch métriques pour les GPU déploiements de terminaux multimodèles
Vous pouvez surveiller les mesures suivantes sur les points de terminaison multimodèles GPU sauvegardés.
L'espace de AWS/SageMaker
noms inclut les métriques de chargement du modèle suivantes à partir d'appels vers InvokeEndpoint.
Les métriques sont disponibles à la fréquence d'une (1) minute.
Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.
Métriques de chargement du modèle de point de terminaison multimodèle
Métrique | Description |
---|---|
ModelLoadingWaitTime |
Intervalle de temps pendant lequel une demande d'invocation attend le téléchargement ou le chargement du modèle cible, ou les deux, pour effectuer une inférence. Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
ModelUnloadingTime |
Intervalle de temps nécessaire pour décharger le modèle lors de l' Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
ModelDownloadingTime |
Intervalle de temps nécessaire pour télécharger le modèle depuis Amazon Simple Storage Service (Amazon S3). Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
ModelLoadingTime |
Intervalle de temps nécessaire pour charger le modèle via l' Unités : microsecondes Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
ModelCacheHit |
Nombre de demandes La statistique Average (Moyenne) indique le ratio des demandes pour lesquelles le modèle a déjà été chargé. Unités : aucune Statistiques valides : Average (Moyenne), Sum (Somme), Sample Count (Nombre d'exemples) |
Dimensions for Multi-Model Endpoint Model Loading Metrics (Dimensions des métriques de chargement du modèle de point de terminaison multimodèle)
Dimension | Description |
---|---|
EndpointName, VariantName |
Filtre les métriques d'appel de point de terminaison pour un |
Les /aws/sagemaker/Endpoints
espaces de noms incluent les métriques d'instance suivantes issues des appels à InvokeEndpoint.
Les métriques sont disponibles à la fréquence d'une (1) minute.
Pour plus d'informations sur la durée de conservation des CloudWatch métriques, consultez GetMetricStatisticsle Amazon CloudWatch API Reference.
Métriques d'instance de modèle de point de terminaison multimodèle
Métrique | Description |
---|---|
LoadedModelCount |
Nombre de modèles chargés dans les conteneurs du point de terminaison multimodèle. Cette métrique est émise par instance. La statistique Average (Moyenne) avec une période de 1 minute indique le nombre moyen de modèles chargés par instance. La statistique Sum (Somme) indique le nombre total de modèles chargés sur toutes les instances du point de terminaison. Les modèles que cette métrique suit ne sont pas nécessairement uniques, car un modèle peut être chargé dans plusieurs conteneurs au point de terminaison. Unités : aucune Statistiques valides : Moyenne, Somme, Min, Max, Exemple de comptage |
CPUUtilization |
Somme de l'utilisation de chaque CPU cœur individuel. L'CPUutilisation de chaque plage de base est comprise entre 0 et 100. Par exemple, s'il y en a quatreCPUs, la Pour les variantes de point de terminaison, la valeur est la somme de l'CPUutilisation des conteneurs principal et supplémentaire sur l'instance. Unités : pourcentage |
MemoryUtilization |
Pourcentage de mémoire utilisée par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %. Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la mémoire du conteneur principal et des conteneurs supplémentaires sur l'instance. Unités : pourcentage |
GPUUtilization |
Pourcentage d'GPUunités utilisées par les conteneurs sur une instance. La valeur comprise entre 0 et 100 est multipliée par le nombre de. GPUs Par exemple, s'il y en a quatreGPUs, la Pour les variantes de point de terminaison, la valeur est la somme de l'GPUutilisation des conteneurs principal et supplémentaire sur l'instance. Unités : pourcentage |
GPUMemoryUtilization |
Pourcentage de GPU mémoire utilisé par les conteneurs d'une instance. La plage de valeurs est comprise entre 0 et 100 et est multipliée par le nombre de. GPUs Par exemple, s'il y en a quatreGPUs, la Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de la GPU mémoire des conteneurs principal et supplémentaire de l'instance. Unités : pourcentage |
DiskUtilization |
Le pourcentage d'espace disque utilisé par les conteneurs sur une instance. Cette plage de valeurs est comprise entre 0 % et 100 %. Pour les variantes de point de terminaison, la valeur est la somme de l'utilisation de l'espace disque du conteneur principal et des conteneurs supplémentaires sur l'instance. Unités : pourcentage |