Métricas de puntos de conexión multicontenedor con invocación directa - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Métricas de puntos de conexión multicontenedor con invocación directa

Además de las métricas de puntos finales que aparecen en la listaMétricas para monitorizar la SageMaker IA de Amazon con Amazon CloudWatch, la SageMaker IA también proporciona métricas por contenedor.

Las métricas por contenedor para los puntos finales de varios contenedores con invocación directa se ubican en dos espacios de nombres y se clasifican en dos espacios de nombres: CloudWatch y. AWS/SageMaker aws/sagemaker/Endpoints El espacio de nombres AWS/SageMaker incluye métricas relacionadas con la invocación y el espacio de nombres aws/sagemaker/Endpoints incluye métricas de uso de memoria y CPU.

En la siguiente tabla, se enumeran las métricas por contenedor para los puntos de conexión multicontenedor con invocación directa. Todas las métricas utilizan la dimensión [EndpointName, VariantName, ContainerName], que filtra las métricas en un punto de conexión específico, para una variante específica y correspondientes a un contenedor específico. Estas métricas comparten los mismos nombres de métrica que las de las canalizaciones de inferencia, pero a nivel de contenedor [EndpointName, VariantName, ContainerName].

Nombre de métrica Descripción Dimensión NameSpace
Invocations El número de solicitudes InvokeEndpoint enviadas a un contenedor dentro de un punto de conexión. Para obtener el número total de solicitudes enviadas a un contenedor, utilice la estadística Sum. Unidades: ninguna Estadísticas válidas: Sum, Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation4XX Errors El número de solicitudes InvokeEndpoint para el que el modelo devolvió un código de respuesta HTTP en un contenedor específico 4xx. Para cada respuesta, la IA envía 4xx un. SageMaker 1 Unidades: ninguna Estadísticas válidas: Average, Sum EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation5XX Errors El número de solicitudes InvokeEndpoint para el que el modelo devolvió un código de respuesta HTTP en un contenedor específico 5xx. Para cada 5xx respuesta, la SageMaker IA envía un1. Unidades: ninguna Estadísticas válidas: Average, Sum EndpointName, VariantName, ContainerName AWS/SageMaker
ContainerLatency El tiempo que tardó el contenedor objetivo en responder visto desde la SageMaker IA. ContainerLatencyincluye el tiempo que se tardó en enviar la solicitud, obtener la respuesta del contenedor del modelo y completar la inferencia en el contenedor. Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
OverheadLatency El tiempo que se suma al tiempo necesario para responder a una solicitud de un cliente por parte de la SageMaker IA en concepto de gastos generales. OverheadLatencyse mide desde el momento en que SageMaker AI recibe la solicitud hasta que devuelve una respuesta al cliente, menos elModelLatency. La latencia de sobrecargas puede variar en función de los tamaños de carga de solicitud y respuesta, la frecuencia de solicitud y la autenticación o la autorización de la solicitud, entre otros factores. Unidades: microsegundos Estadísticas válidas: Average, Sum, Min, Max, “Recuento de muestras” EndpointName, VariantName, ContainerName AWS/SageMaker
CPUUtilization El porcentaje de unidades de CPU usadas por cada contenedor que se ejecutan en una instancia. El valor oscila entre el 0% y el 100% y se multiplica por el número de CPUs. Por ejemplo, si hay cuatro CPUs, CPUUtilization puede oscilar entre el 0% y el 400%. En el caso de los puntos finales con invocación directa, el número de CPUUtilization métricas es igual al número de contenedores de ese punto final. Unidad: porcentaje EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints
MemoryUtilizaton El porcentaje de memoria que utiliza cada contenedor que se ejecuta en una instancia. Este valor oscila entre 0 % y 100 %. Al igual que CPUUtilization en los puntos finales con invocación directa, el número de MemoryUtilization métricas es igual al número de contenedores en ese punto final. Unidad: porcentaje EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints

Todas las métricas de la tabla anterior son específicas de los puntos de conexión multicontenedor con invocación directa. Además de estas métricas especiales por contenedor, también hay métricas a nivel de variante con dimensiones [EndpointName, VariantName] para todas las métricas de la tabla previstas ContainerLatency.