As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Além das métricas de endpoint listadas emMétricas para monitorar a Amazon SageMaker AI com a Amazon CloudWatch, a SageMaker IA também fornece métricas por contêiner.
As métricas por contêiner para endpoints de vários contêineres com invocação direta estão localizadas CloudWatch e categorizadas em dois namespaces: e. AWS/SageMaker
aws/sagemaker/Endpoints
O AWS/SageMaker
namespace inclui métricas relacionadas à invocação, e o namespace aws/sagemaker/Endpoints
inclui métricas de utilização de memória e CPU.
A tabela a seguir lista as métricas por contêiner para endpoints de vários contêineres com invocação direta. Todas as métricas usam a dimensão [EndpointName, VariantName,
ContainerName
], que filtra as métricas em um endpoint específico, para uma variante específica e corresponde a um contêiner específico. Essas métricas compartilham os mesmos nomes das métricas dos pipelines de inferência, mas em um nível por contêiner [EndpointName, VariantName, ContainerName
].
Nome da métrica | Descrição | Dimensão | NameSpace |
Invocations
|
O número de solicitações InvokeEndpoint enviadas para um contêiner dentro de um endpoint. Para obter o número total de solicitações enviadas para esse contêiner, use a estatística Sum . Unidades: nenhuma estatísticas válidas: Sum , Sample Count |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
Invocation4XX Errors
|
O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 4xx para um contêiner específico. Para cada 4xx resposta, a SageMaker IA envia um1 . Unidades: nenhuma estatísticas válidas: Average , Sum |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
Invocation5XX Errors
|
O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 5xx para um contêiner específico. Para cada 5xx resposta, a SageMaker IA envia um1 . Unidades: nenhuma estatísticas válidas: Average , Sum |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
ContainerLatency
|
O tempo necessário para que o contêiner de destino respondesse conforme visualizado pela SageMaker IA. ContainerLatency inclui o tempo necessário para enviar a solicitação, buscar a resposta do contêiner do modelo e concluir a inferência no contêiner. Unidades: microssegundos estatísticas válidas: Average , Sum ,Min , Max , Sample Count |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
OverheadLatency
|
O tempo adicionado ao tempo necessário para responder a uma solicitação de um cliente feita pela SageMaker IA para sobrecarga. OverheadLatency é medido a partir do momento em que a SageMaker IA recebe a solicitação até retornar uma resposta ao cliente, menos o. ModelLatency A latência de sobrecarga pode variar dependendo de tamanhos de carga útil de solicitações e respostas, frequência de solicitações e autenticação ou autorização da solicitação, entre outros fatores. Unidades: microssegundos estatísticas válidas: Average , Sum , Min , Max , 'Contagem de amostras' |
EndpointName , VariantName ,
ContainerName
|
AWS/SageMaker |
CPUUtilization
|
O percentual de unidades de CPU usadas por cada contêiner em execução em uma instância. O valor varia de 0% a 100% e é multiplicado pelo número de CPUs. Por exemplo, se houver quatro CPUs, CPUUtilization pode variar de 0% a 400%. Para endpoints com invocação direta, o número de CPUUtilization métricas é igual ao número de contêineres nesse endpoint. Unidades: percentual |
EndpointName , VariantName ,
ContainerName
|
aws/sagemaker/Endpoints |
MemoryUtilizaton
|
O percentual de memória usada por cada contêiner em execução em uma instância. Esse valor varia de 0% a 100%. Da mesma forma que CPUUtilization, em endpoints com invocação direta, o número de MemoryUtilization métricas é igual ao número de contêineres nesse endpoint. Unidades: percentual |
EndpointName , VariantName ,
ContainerName
|
aws/sagemaker/Endpoints |
Todas as métricas na tabela anterior são específicas para endpoints de vários contêineres com invocação direta. Além dessas métricas especiais por contêiner, também há métricas no nível da variante com a dimensão [EndpointName, VariantName]
de todas as métricas ContainerLatency
esperadas na tabela.