Métricas para endpoints de vários contêineres com invocação direta - Amazon SageMaker

Métricas para endpoints de vários contêineres com invocação direta

Além das métricas de endpoint listadas em Métricas para monitoramento do Amazon SageMaker com o Amazon CloudWatch, o SageMaker também fornece métricas por contêiner.

As métricas por contêiner para endpoints de vários contêineres com invocação direta estão localizadas no CloudWatch e categorizadas em dois namespaces: AWS/SageMaker e aws/sagemaker/Endpoints. O AWS/SageMaker namespace inclui métricas relacionadas à invocação, e o namespace aws/sagemaker/Endpoints inclui métricas de utilização de memória e CPU.

A tabela a seguir lista as métricas por contêiner para endpoints de vários contêineres com invocação direta. Todas as métricas usam a dimensão [EndpointName, VariantName, ContainerName], que filtra as métricas em um endpoint específico, para uma variante específica e corresponde a um contêiner específico. Essas métricas compartilham os mesmos nomes das métricas dos pipelines de inferência, mas em um nível por contêiner [EndpointName, VariantName, ContainerName].

Nome da métrica Descrição Dimensão NameSpace
Invocations O número de solicitações InvokeEndpoint enviadas para um contêiner dentro de um endpoint. Para obter o número total de solicitações enviadas para esse contêiner, use a estatística Sum. Unidades: nenhuma estatísticas válidas: Sum, Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation4XX Errors O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 4xx para um contêiner específico. Para cada resposta 4xx, o SageMaker envia um 1. Unidades: nenhuma estatísticas válidas: Average, Sum EndpointName, VariantName, ContainerName AWS/SageMaker
Invocation5XX Errors O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 5xx para um contêiner específico. Para cada resposta 5xx, o SageMaker envia um 1. Unidades: nenhuma estatísticas válidas: Average, Sum EndpointName, VariantName, ContainerName AWS/SageMaker
ContainerLatency O tempo necessário para um contêiner de destino responder como exibido no SageMaker. ContainerLatency inclui o tempo necessário para enviar a solicitação, buscar a resposta do contêiner do modelo e concluir a inferência no contêiner. Unidades: microssegundos estatísticas válidas: Average, Sum,Min, Max, Sample Count EndpointName, VariantName, ContainerName AWS/SageMaker
OverheadLatency O tempo adicionado ao tempo gasto para responder a uma solicitação do cliente pelo SageMaker para sobrecarga. OverheadLatency é medida a partir do momento em que o SageMaker recebe a solicitação até retornar uma resposta ao cliente, menos a ModelLatency. A latência de sobrecarga pode variar dependendo de tamanhos de carga útil de solicitações e respostas, frequência de solicitações e autenticação ou autorização da solicitação, entre outros fatores. Unidades: microssegundos estatísticas válidas: Average, Sum, Min, Max, 'Contagem de amostras' EndpointName, VariantName, ContainerName AWS/SageMaker
CPUUtilization O percentual de unidades de CPU usadas por cada contêiner em execução em uma instância. O valor varia de 0% a 100% e é multiplicado pelo número de CPUs. Por exemplo, se houver quatro CPUs, CPUUtilization poderá variar de 0% a 400%. Para endpoints com invocação direta, o número de métricas de CPUUtilization é igual ao número de contêineres nesse endpoint. Unidades: percentual EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints
MemoryUtilizaton O percentual de memória usada por cada contêiner em execução em uma instância. Esse valor varia de 0% a 100%. Semelhante ao CPUUtilization, em endpoints com invocação direta, o número de métricas MemoryUtilization é igual ao número de contêineres nesse endpoint. Unidades: percentual EndpointName, VariantName, ContainerName aws/sagemaker/Endpoints

Todas as métricas na tabela anterior são específicas para endpoints de vários contêineres com invocação direta. Além dessas métricas especiais por contêiner, também há métricas no nível da variante com a dimensão [EndpointName, VariantName] de todas as métricas ContainerLatency esperadas na tabela.