Alarmes e registros para rastrear métricas de endpoints assíncronos

Você pode monitorar SageMaker usando a Amazon CloudWatch, que coleta dados brutos e os processa em métricas legíveis, quase em tempo real. Com a Amazon CloudWatch, você pode acessar informações históricas e ter uma perspectiva melhor sobre o desempenho de seu aplicativo ou serviço web. Para obter mais informações sobre a Amazon CloudWatch, consulte O que é a Amazon CloudWatch?

Monitoramento com CloudWatch

As métricas abaixo são uma lista completa de métricas para endpoints assíncronos e estão no namespace AWS/SageMaker. Qualquer métrica não listada abaixo não será publicada se o endpoint estiver habilitado para inferência assíncrona. Essas métricas incluem (mas não estão limitadas a):

OverheadLatency
Invocações
InvocationsPerInstance

Métricas comuns de endpoint

Essas métricas são as mesmas publicadas hoje para endpoints em tempo real. Para obter mais informações sobre outras métricas na Amazon CloudWatch, consulte Monitorar SageMaker com a Amazon CloudWatch.

Nome da métrica Descrição Unidade/Estatísticas

Nome da métrica	Descrição	Unidade/Estatísticas
`Invocation4XXErrors`	O número de solicitações em que o modelo retornou um código de HTTP resposta 4xx. Para cada resposta 4xx, 1 é enviado; caso contrário, 0 é enviado.	Unidades: nenhuma Estatísticas válidas: média e soma
`Invocation5XXErrors`	O número de InvokeEndpoint solicitações em que o modelo retornou um código de HTTP resposta 5xx. Para cada resposta 5xx, 1 é enviado; caso contrário, 0 é enviado.	Unidades: nenhuma Estatísticas válidas: média e soma
`ModelLatency`	O intervalo de tempo gasto por um modelo para responder conforme visualizado a partir de SageMaker. Esse intervalo inclui os tempos de comunicação locais necessários para enviar a solicitação e buscar a resposta do contêiner de um modelo, bem como o tempo gasto para concluir a inferência no contêiner.	Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras

Invocation4XXErrors

O número de solicitações em que o modelo retornou um código de HTTP resposta 4xx. Para cada resposta 4xx, 1 é enviado; caso contrário, 0 é enviado.

Unidades: nenhuma

Estatísticas válidas: média e soma

Invocation5XXErrors

O número de InvokeEndpoint solicitações em que o modelo retornou um código de HTTP resposta 5xx. Para cada resposta 5xx, 1 é enviado; caso contrário, 0 é enviado.

Unidades: nenhuma

Estatísticas válidas: média e soma

ModelLatency

O intervalo de tempo gasto por um modelo para responder conforme visualizado a partir de SageMaker. Esse intervalo inclui os tempos de comunicação locais necessários para enviar a solicitação e buscar a resposta do contêiner de um modelo, bem como o tempo gasto para concluir a inferência no contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

Métricas de endpoint de inferência assíncrona

Essas métricas são publicadas para endpoints habilitados para inferência assíncrona. Todas as métricas a seguir são publicadas com uma dimensão EndpointName.

Nome da métrica	Descrição	Unidade/Estatísticas
`ApproximateBacklogSize`	O número de itens na fila de um endpoint que estão sendo processados no momento ou que ainda precisam ser processados.	Unidades: contagem Estatísticas válidas: média, máxima e mínima.
`ApproximateBacklogSizePerInstance`	Número de itens na fila dividido pelo número de instâncias atrás de um endpoint. Essa métrica é usada principalmente para configurar o escalonamento automático de aplicativos para um endpoint habilitado para assíncrono.	Unidades: contagem Estatísticas válidas: média, máxima e mínima.
`ApproximateAgeOfOldestRequest`	Idade da solicitação mais antiga na fila.	Unidades: segundos Estatísticas válidas: média, máxima e mínima.
`HasBacklogWithoutCapacity`	O valor dessa métrica é `1` quando há solicitações na fila, mas nenhuma instância atrás do endpoint. O valor é `0` em todos os outros momentos. Você pode usar essa métrica para escalar automaticamente seu endpoint a partir de zero instâncias ao receber uma nova solicitação na fila.	Unidade: contagem Estatística válida: média

Todas as métricas a seguir são publicadas com as dimensões EndpointName e VariantName.

Nome da métrica	Descrição	Unidade/Estatísticas
`RequestDownloadFailures`	Quando ocorre uma falha de inferência devido a um problema no download da solicitação do Amazon S3.	Unidades: contagem Estatística válida: soma
`ResponseUploadFailures`	Quando ocorre uma falha de inferência devido a um problema no upload da resposta para o Amazon S3.	Unidades: contagem Estatística válida: soma
`NotificationFailures`	Quando ocorreu um problema ao publicar notificações.	Unidades: contagem Estatística válida: soma
`RequestDownloadLatency`	Tempo total para fazer download da carga da solicitação.	Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ResponseUploadLatency`	Tempo total para carregar a carga útil da resposta.	Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ExpiredRequests`	Número de solicitações na fila que falham devido ao recebimento da solicitação TTL especificada.	Unidades: contagem Estatística válida: soma
`InvocationFailures`	Se uma invocação falhar por qualquer motivo.	Unidades: contagem Estatística válida: soma
`InvocationsProcesssed`	Número de invocações assíncronas processadas pelo endpoint.	Unidades: contagem Estatística válida: soma
`TimeInBacklog`	Tempo total em que a solicitação ficou na fila antes de ser processada. Isso não inclui o tempo real de processamento (ou seja, tempo de download, tempo de upload, latência do modelo).	Unidade: milissegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`TotalProcessingTime`	O horário em que a solicitação de inferência foi recebida SageMaker até o momento em que o processamento da solicitação foi concluído. Isso inclui o tempo no backlog e o tempo para carregar e enviar notificações de resposta, se houver.	Unidade: milissegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras

O Amazon SageMaker Asynchronous Inference também inclui métricas em nível de host. Para obter informações sobre métricas em nível de host, consulte Métricas de SageMaker tarefas e endpoints.

Logs

Além dos registros de contêiner do modelo que são publicados CloudWatch na Amazon em sua conta, você também recebe um novo registro de plataforma para rastrear e depurar solicitações de inferência.

Os novos logs são publicados no Grupo de logs do Endpoint:


/aws/sagemaker/Endpoints/[EndpointName]

O nome do stream de logs consiste de:


[production-variant-name]/[instance-id]/data-log.

Linhas de log contêm a ID de inferência da solicitação para que os erros possam ser facilmente mapeados para uma solicitação específica.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Delete

Verifique dos resultados da previsão