Métricas do CloudWatch para implantações de endpoint multimodelo - Amazon SageMaker

Métricas do CloudWatch para implantações de endpoint multimodelo

O Amazon SageMaker fornece métricas para endpoints para que você possa monitorar a taxa de acertos do cache, o número de modelos carregados e os tempos de espera do modelo para carregar e fazer download e upload em um endpoint multimodelo. Algumas das métricas são diferentes para endpoints multimodelo compatíveis com CPU e GPU, então as seções a seguir descrevem as métricas do Amazon CloudWatch que você pode usar para cada tipo de endpoint multimodelo.

Para obter mais informações sobre métricas, consulte Métricas de carregamento do modelo para endpoint multimodelo e Métricas de instâncias de modelos para endpoint multimodelo em Métricas para monitoramento do Amazon SageMaker com o Amazon CloudWatch. Métricas por modelo não são compatíveis.

As métricas do CloudWatch para endpoints multimodelo com compatibilidade com CPU

Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com CPU:

O namespace AWS/SageMaker inclui as seguintes métricas de carregamento de modelo em chamadas para InvokeEndpoint:

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as métricas do CloudWatch são retidas, consulte GetMetricStatistics na Referência da API do Amazon CloudWatch.

Métricas de carregamento de modelos de endpoint multimodelo

Métrica Descrição
ModelLoadingWaitTime

O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelUnloadingTime

O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API UnloadModel do contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelDownloadingTime

O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3).

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelLoadingTime

O intervalo de tempo necessário para carregar o modelo com a chamada de API LoadModel do contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelCacheHit

O número de solicitações InvokeEndpoint enviadas para o endpoint multimodelo para o qual o modelo já foi carregado.

A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado.

Unidades: nenhuma

Estatísticas válidas: média, soma, contagem de amostras

Dimensões para métricas de carregamento de modelos de endpoint multimodelo

Dimensão Descrição
EndpointName, VariantName

Filtra as métricas de invocação de endpoint para uma ProductionVariant do endpoint e da variante especificados.

Os namespaces /aws/sagemaker/Endpoints incluem as seguintes métricas de instância em chamadas para InvokeEndpoint:

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as métricas do CloudWatch são retidas, consulte GetMetricStatistics na Referência da API do Amazon CloudWatch.

Métricas de instâncias de modelos para endpoint multimodelo

Métrica Descrição
LoadedModelCount

O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância.

A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância.

A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint.

Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint.

Unidades: nenhuma

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

CPUUtilization

A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o intervalo de CPUUtilization é de 0% a 400%.

Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância.

Unidades: percentual

MemoryUtilization

O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.

Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância.

Unidades: percentual

DiskUtilization

A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.

Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância.

Unidades: percentual

Métricas do CloudWatch para implantações de endpoint multimodelo do GPU.

Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com GPU:

O namespace AWS/SageMaker inclui as seguintes métricas de carregamento de modelo em chamadas para InvokeEndpoint:

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as métricas do CloudWatch são retidas, consulte GetMetricStatistics na Referência da API do Amazon CloudWatch.

Métricas de carregamento de modelos de endpoint multimodelo

Métrica Descrição
ModelLoadingWaitTime

O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelUnloadingTime

O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API UnloadModel do contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelDownloadingTime

O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3).

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelLoadingTime

O intervalo de tempo necessário para carregar o modelo com a chamada de API LoadModel do contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelCacheHit

O número de solicitações InvokeEndpoint enviadas para o endpoint multimodelo para o qual o modelo já foi carregado.

A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado.

Unidades: nenhuma

Estatísticas válidas: média, soma, contagem de amostras

Dimensões para métricas de carregamento de modelos de endpoint multimodelo

Dimensão Descrição
EndpointName, VariantName

Filtra as métricas de invocação de endpoint para uma ProductionVariant do endpoint e da variante especificados.

Os namespaces /aws/sagemaker/Endpoints incluem as seguintes métricas de instância em chamadas para InvokeEndpoint:

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as métricas do CloudWatch são retidas, consulte GetMetricStatistics na Referência da API do Amazon CloudWatch.

Métricas de instâncias de modelos para endpoint multimodelo

Métrica Descrição
LoadedModelCount

O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância.

A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância.

A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint.

Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint.

Unidades: nenhuma

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

CPUUtilization

A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o intervalo de CPUUtilization é de 0% a 400%.

Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância.

Unidades: percentual

MemoryUtilization

O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.

Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância.

Unidades: percentual

GPUUtilization

O percentual de unidades de GPU usadas pelos contêineres em uma instância. O valor pode variar entre 0 e 100 e é multiplicado pelo número de GPUs. Por exemplo, se houver quatro CPUs, o intervalo de GPUUtilization é de 0% a 400%.

Para variantes de endpoint, o valor é a soma da utilização de GPU dos contêineres principais e complementares na instância.

Unidades: percentual

GPUMemoryUtilization

O percentual de memória de GPU usada pelos contêineres em uma instância. O intervalo de valores é de 0 a 100 e é multiplicado pelo número de GPUs. Por exemplo, se houver quatro CPUs, o intervalo de GPUMemoryUtilization é de 0% a 400%.

Para variantes de endpoint, o valor é a soma da utilização de memória de GPU dos contêineres principais e complementares na instância.

Unidades: percentual

DiskUtilization

A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.

Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância.

Unidades: percentual