CloudWatch Métricas para despliegues de terminales multimodelo - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

CloudWatch Métricas para despliegues de terminales multimodelo

Amazon SageMaker proporciona métricas para los puntos de enlace para que puedas monitorizar la tasa de aciertos de la memoria caché, el número de modelos cargados y los tiempos de espera de los modelos para cargarse, descargarse y cargarse en un punto final multimodelo. Algunas de las métricas son diferentes para los puntos de enlace multimodelo CPU y están GPU respaldados por ellos, por lo que en las siguientes secciones se describen las CloudWatch métricas de Amazon que puede usar para cada tipo de punto de enlace multimodelo.

Para obtener más información sobre las métricas, consulte Métricas de carga de modelo de punto de conexión multimodelo y Métricas de instancia de modelo de punto de conexión multimodelo en Supervisa Amazon SageMaker con Amazon CloudWatch. Las métricas por modelo no son compatibles.

CloudWatch métricas para puntos de enlace multimodelo respaldados CPU

Puede supervisar las siguientes métricas en los puntos finales multimodelo CPU respaldados.

El espacio de AWS/SageMaker nombres incluye el siguiente modelo de métricas de carga de las llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta GetMetricStatisticsla Amazon CloudWatch API Reference.

Métricas de carga de modelo de punto de conexión multimodelo

Métrica Descripción
ModelLoadingWaitTime

El intervalo de tiempo que una solicitud de invocación ha esperado a que se descargue o cargue el modelo de destino, o ambos, para realizar la inferencia.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelUnloadingTime

El intervalo de tiempo que se tardó en descargar el modelo durante la UnloadModel API llamada del contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelDownloadingTime

El intervalo de tiempo que se tardó en descargar el modelo de Amazon Simple Storage Service (Amazon S3).

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelLoadingTime

El intervalo de tiempo que se tardó en cargar el modelo durante la LoadModel API llamada del contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelCacheHit

El número de solicitudes InvokeEndpoint enviadas al punto de conexión multimodelo para el que ya se ha cargado el modelo.

La estadística Promedio muestra la proporción de solicitudes para las que el modelo ya se ha cargado.

Unidades: ninguna

Estadísticas válidas: Average, Sum, Sample Count.

Dimensiones para métricas de carga de modelo de punto de conexión multimodelo

Dimensión Descripción
EndpointName, VariantName

Filtra las métricas de invocación de punto de conexión para una ProductionVariant del punto de conexión y la variante especificados.

Los /aws/sagemaker/Endpoints espacios de nombres incluyen las siguientes métricas de instancia correspondientes a las llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta GetMetricStatisticsla Amazon CloudWatch API Reference.

Métricas de instancia de modelo de punto de conexión multimodelo

Métrica Descripción
LoadedModelCount

El número de modelos cargados en los contenedores del punto de conexión multimodelo. Esta métrica se emite por instancia.

La estadística Promedio con un período de 1 minuto indica el número medio de modelos cargados por instancia.

La estadística Suma indica el número total de modelos cargados en todas las instancias del punto de conexión.

Los modelos de los que realiza el seguimiento de esta métrica no son necesariamente únicos porque un modelo puede cargarse en varios contenedores en el punto de conexión.

Unidades: ninguna

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

CPUUtilization

La suma de la utilización de cada CPU núcleo individual. La CPU utilización de cada rango de núcleos es de 0 a 100. Por ejemplo, si hay cuatroCPUs, el CPUUtilization rango es del 0% al 400%.

En el caso de las variantes de punto final, el valor es la suma de la CPU utilización de los contenedores principal y complementario de la instancia.

Unidades: porcentaje

MemoryUtilization

El porcentaje de memoria que utilizan los contenedores en una instancia. Este valor oscila del 0 % al 100 %.

Para las variantes de punto de conexión, el valor es la suma de la utilización de la memoria de los contenedores principales y suplementarios en la instancia.

Unidades: porcentaje

DiskUtilization

El porcentaje de espacio en disco usado por los contenedores en una instancia. Este valor oscila del 0 % al 100 %.

Para las variantes de punto de conexión, el valor es la suma de la utilización del espacio en disco de los contenedores principales y suplementarios en la instancia.

Unidades: porcentaje

CloudWatch métricas para despliegues GPU de puntos finales multimodelo

Puede supervisar las siguientes métricas en los puntos finales multimodelo GPU respaldados.

El espacio de AWS/SageMaker nombres incluye el siguiente modelo de métricas de carga de las llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta GetMetricStatisticsla Amazon CloudWatch API Reference.

Métricas de carga de modelo de punto de conexión multimodelo

Métrica Descripción
ModelLoadingWaitTime

El intervalo de tiempo que una solicitud de invocación ha esperado a que se descargue o cargue el modelo de destino, o ambos, para realizar la inferencia.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelUnloadingTime

El intervalo de tiempo que se tardó en descargar el modelo durante la UnloadModel API llamada del contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelDownloadingTime

El intervalo de tiempo que se tardó en descargar el modelo de Amazon Simple Storage Service (Amazon S3).

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelLoadingTime

El intervalo de tiempo que se tardó en cargar el modelo durante la LoadModel API llamada del contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelCacheHit

El número de solicitudes InvokeEndpoint enviadas al punto de conexión multimodelo para el que ya se ha cargado el modelo.

La estadística Promedio muestra la proporción de solicitudes para las que el modelo ya se ha cargado.

Unidades: ninguna

Estadísticas válidas: Average, Sum, Sample Count.

Dimensiones para métricas de carga de modelo de punto de conexión multimodelo

Dimensión Descripción
EndpointName, VariantName

Filtra las métricas de invocación de punto de conexión para una ProductionVariant del punto de conexión y la variante especificados.

Los /aws/sagemaker/Endpoints espacios de nombres incluyen las siguientes métricas de instancia correspondientes a las llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta GetMetricStatisticsla Amazon CloudWatch API Reference.

Métricas de instancia de modelo de punto de conexión multimodelo

Métrica Descripción
LoadedModelCount

El número de modelos cargados en los contenedores del punto de conexión multimodelo. Esta métrica se emite por instancia.

La estadística Promedio con un período de 1 minuto indica el número medio de modelos cargados por instancia.

La estadística Suma indica el número total de modelos cargados en todas las instancias del punto de conexión.

Los modelos de los que realiza el seguimiento de esta métrica no son necesariamente únicos porque un modelo puede cargarse en varios contenedores en el punto de conexión.

Unidades: ninguna

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

CPUUtilization

La suma de la utilización de cada CPU núcleo individual. La CPU utilización de cada rango de núcleos es de 0 a 100. Por ejemplo, si hay cuatroCPUs, el CPUUtilization rango es del 0% al 400%.

En el caso de las variantes de punto final, el valor es la suma de la CPU utilización de los contenedores principal y complementario de la instancia.

Unidades: porcentaje

MemoryUtilization

El porcentaje de memoria que utilizan los contenedores en una instancia. Este valor oscila del 0 % al 100 %.

Para las variantes de punto de conexión, el valor es la suma de la utilización de la memoria de los contenedores principales y suplementarios en la instancia.

Unidades: porcentaje

GPUUtilization

El porcentaje de GPU unidades que utilizan los contenedores de una instancia. El valor puede oscilar entre 0 y 100 y se multiplica por el número de. GPUs Por ejemplo, si hay cuatroGPUs, el GPUUtilization rango es del 0% al 400%.

En el caso de las variantes de punto final, el valor es la suma de la GPU utilización de los contenedores principal y complementario de la instancia.

Unidades: porcentaje

GPUMemoryUtilization

El porcentaje de GPU memoria que utilizan los contenedores de una instancia. El rango de valores es de 0 a 100 y se multiplica por el número de. GPUs Por ejemplo, si hay cuatroGPUs, el GPUMemoryUtilization rango es del 0% al 400%.

Para las variantes de punto final, el valor es la suma de la utilización de GPU memoria de los contenedores principal y suplementario de la instancia.

Unidades: porcentaje

DiskUtilization

El porcentaje de espacio en disco usado por los contenedores en una instancia. Este valor oscila del 0 % al 100 %.

Para las variantes de punto de conexión, el valor es la suma de la utilización del espacio en disco de los contenedores principales y suplementarios en la instancia.

Unidades: porcentaje