Métricas de puntos de conexión multicontenedor con invocación directa

Además de las métricas de puntos finales que aparecen en la listaMétricas de Amazon SageMaker AI en Amazon CloudWatch, la SageMaker IA también proporciona métricas por contenedor.

Per-container las métricas de los puntos finales de varios contenedores con invocación directa se ubican en dos espacios de nombres CloudWatch y se clasifican en dos espacios de nombres: y. AWS/SageMaker aws/sagemaker/Endpoints El espacio de nombres AWS/SageMaker incluye métricas relacionadas con la invocación y el espacio de nombres aws/sagemaker/Endpoints incluye métricas de uso de memoria y CPU.

En la siguiente tabla, se enumeran las métricas por contenedor para los puntos de conexión multicontenedor con invocación directa. Todas las métricas utilizan la dimensión [EndpointName, VariantName, ContainerName], que filtra las métricas en un punto de conexión específico, para una variante específica y correspondientes a un contenedor específico. Estas métricas comparten los mismos nombres de métrica que las de las canalizaciones de inferencia, pero a nivel de contenedor [EndpointName, VariantName, ContainerName].

Nombre de métrica	Description (Descripción)	Dimensión	NameSpace
`Invocations`	El número de solicitudes `InvokeEndpoint` enviadas a un contenedor dentro de un punto de conexión. Para obtener el número total de solicitudes enviadas a un contenedor, utilice la estadística `Sum`. Unidades: ninguna Estadísticas válidas: `Sum`, `Sample Count`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`Invocation4XX Errors`	El número de solicitudes `InvokeEndpoint` para el que el modelo devolvió un código de respuesta HTTP en un contenedor específico `4xx`. Para cada `4xx` respuesta, la IA envía un. SageMaker `1` Unidades: ninguna Estadísticas válidas: `Average`, `Sum`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`Invocation5XX Errors`	El número de solicitudes `InvokeEndpoint` para el que el modelo devolvió un código de respuesta HTTP en un contenedor específico `5xx`. Para cada `5xx` respuesta, la SageMaker IA envía un`1`. Unidades: ninguna Estadísticas válidas: `Average`, `Sum`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`ContainerLatency`	El tiempo que tardó el contenedor objetivo en responder visto desde la SageMaker IA. `ContainerLatency`incluye el tiempo que se tardó en enviar la solicitud, obtener la respuesta del contenedor del modelo y completar la inferencia en el contenedor. Unidades: microsegundos Estadísticas válidas: `Average`, `Sum`, `Min`, `Max`, `Sample Count`	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`OverheadLatency`	El tiempo que se suma al tiempo necesario para responder a una solicitud de un cliente por parte de la SageMaker IA en concepto de gastos generales. `OverheadLatency`se mide desde el momento en que SageMaker AI recibe la solicitud hasta que devuelve una respuesta al cliente, menos el`ModelLatency`. La latencia de sobrecargas puede variar en función de los tamaños de carga de solicitud y respuesta, la frecuencia de solicitud y la autenticación o la autorización de la solicitud, entre otros factores. Unidades: microsegundos Estadísticas válidas: `Average`, `Sum`, `Min`, `Max`, “Recuento de muestras”	`EndpointName`, `VariantName`, `ContainerName`	`AWS/SageMaker`
`CPUUtilization`	El porcentaje de unidades de CPU usadas por cada contenedor que se ejecutan en una instancia. El valor oscila entre 0 % y 100 %, y se multiplica por el número de CPU. Por ejemplo, si hay cuatro CPU, `CPUUtilization` puede oscilar entre 0 % y 400 %. En el caso de los puntos de conexión con invocación directa, el número de métricas de utilización de la CPU es igual al número de contenedores de ese punto de conexión. Unidad: porcentaje	`EndpointName`, `VariantName`, `ContainerName`	`aws/sagemaker/Endpoints`
`MemoryUtilizaton`	El porcentaje de memoria que utiliza cada contenedor que se ejecuta en una instancia. Este valor oscila entre 0 % y 100 %. Al igual que ocurre con la utilización de la CPU, en los puntos finales con invocación directa, el número de MemoryUtilization métricas es igual al número de contenedores de ese punto final. Unidad: porcentaje	`EndpointName`, `VariantName`, `ContainerName`	`aws/sagemaker/Endpoints`

Todas las métricas de la tabla anterior son específicas de los puntos de conexión multicontenedor con invocación directa. Además de estas métricas especiales por contenedor, también hay métricas a nivel de variante con dimensiones [EndpointName, VariantName] para todas las métricas de la tabla previstas ContainerLatency.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Seguridad con puntos de conexión multicontenedor con invocación directa

Puntos de conexión multicontenedor