Métricas para endpoints de vários contêineres com invocação direta
Além das métricas de endpoint listadas em Métricas para monitoramento do Amazon SageMaker com o Amazon CloudWatch, o SageMaker também fornece métricas por contêiner.
As métricas por contêiner para endpoints de vários contêineres com invocação direta estão localizadas no CloudWatch e categorizadas em dois namespaces: AWS/SageMaker
e aws/sagemaker/Endpoints
. O AWS/SageMaker
namespace inclui métricas relacionadas à invocação, e o namespace aws/sagemaker/Endpoints
inclui métricas de utilização de memória e CPU.
A tabela a seguir lista as métricas por contêiner para endpoints de vários contêineres com invocação direta. Todas as métricas usam a dimensão [EndpointName, VariantName,
ContainerName
], que filtra as métricas em um endpoint específico, para uma variante específica e corresponde a um contêiner específico. Essas métricas compartilham os mesmos nomes das métricas dos pipelines de inferência, mas em um nível por contêiner [EndpointName, VariantName, ContainerName
].
Nome da métrica | Descrição | Dimensão | NameSpace |
Invocations
|
O número de solicitações InvokeEndpoint enviadas para um contêiner dentro de um endpoint. Para obter o número total de solicitações enviadas para esse contêiner, use a estatística Sum . Unidades: nenhuma estatísticas válidas: Sum , Sample Count |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
Invocation4XX Errors
|
O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 4xx para um contêiner específico. Para cada resposta 4xx , o SageMaker envia um 1 . Unidades: nenhuma estatísticas válidas: Average , Sum |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
Invocation5XX Errors
|
O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 5xx para um contêiner específico. Para cada resposta 5xx , o SageMaker envia um 1 . Unidades: nenhuma estatísticas válidas: Average , Sum |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
ContainerLatency
|
O tempo necessário para um contêiner de destino responder como exibido no SageMaker. ContainerLatency inclui o tempo necessário para enviar a solicitação, buscar a resposta do contêiner do modelo e concluir a inferência no contêiner. Unidades: microssegundos estatísticas válidas: Average , Sum ,Min , Max , Sample Count |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
OverheadLatency
|
O tempo adicionado ao tempo gasto para responder a uma solicitação do cliente pelo SageMaker para sobrecarga. OverheadLatency é medida a partir do momento em que o SageMaker recebe a solicitação até retornar uma resposta ao cliente, menos a ModelLatency . A latência de sobrecarga pode variar dependendo de tamanhos de carga útil de solicitações e respostas, frequência de solicitações e autenticação ou autorização da solicitação, entre outros fatores. Unidades: microssegundos estatísticas válidas: Average , Sum , Min , Max , 'Contagem de amostras' |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
CPUUtilization
|
O percentual de unidades de CPU usadas por cada contêiner em execução em uma instância. O valor varia de 0% a 100% e é multiplicado pelo número de CPUs. Por exemplo, se houver quatro CPUs, CPUUtilization poderá variar de 0% a 400%. Para endpoints com invocação direta, o número de métricas de CPUUtilization é igual ao número de contêineres nesse endpoint. Unidades: percentual |
EndpointName , VariantName ,
ContainerName
|
aws/sagemaker/Endpoints |
MemoryUtilizaton
|
O percentual de memória usada por cada contêiner em execução em uma instância. Esse valor varia de 0% a 100%. Semelhante ao CPUUtilization, em endpoints com invocação direta, o número de métricas MemoryUtilization é igual ao número de contêineres nesse endpoint. Unidades: percentual |
EndpointName , VariantName ,
ContainerName
|
aws/sagemaker/Endpoints |
Todas as métricas na tabela anterior são específicas para endpoints de vários contêineres com invocação direta. Além dessas métricas especiais por contêiner, também há métricas no nível da variante com a dimensão [EndpointName, VariantName]
de todas as métricas ContainerLatency
esperadas na tabela.