CloudWatch Métricas para implantações de endpoints de vários modelos - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

CloudWatch Métricas para implantações de endpoints de vários modelos

A Amazon SageMaker AI fornece métricas para endpoints para que você possa monitorar a taxa de acerto do cache, o número de modelos carregados e os tempos de espera do modelo para carregamento, download e upload em um endpoint multimodelo. Algumas das métricas são diferentes para endpoints multimodelo suportados por CPU e GPU. Portanto, as seções a seguir descrevem as CloudWatch métricas da Amazon que você pode usar para cada tipo de endpoint multimodelo.

Para obter mais informações sobre métricas, consulte Métricas de carregamento do modelo para endpoint multimodelo e Métricas de instâncias de modelos para endpoint multimodelo em Métricas para monitorar a Amazon SageMaker AI com a Amazon CloudWatch. Métricas por modelo não são compatíveis.

CloudWatch métricas para endpoints multimodelo suportados por CPU

Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com CPU:

O AWS/SageMaker namespace inclui as seguintes métricas de carregamento do modelo a partir de chamadas para. InvokeEndpoint

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.

Métricas de carregamento de modelos de endpoint multimodelo

Métrica Descrição
ModelLoadingWaitTime

O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelUnloadingTime

O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API UnloadModel do contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelDownloadingTime

O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3).

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelLoadingTime

O intervalo de tempo necessário para carregar o modelo com a chamada de API LoadModel do contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelCacheHit

O número de solicitações InvokeEndpoint enviadas para o endpoint multimodelo para o qual o modelo já foi carregado.

A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado.

Unidades: nenhuma

Estatísticas válidas: média, soma, contagem de amostras

Dimensões para métricas de carregamento de modelos de endpoint multimodelo

Dimensão Descrição
EndpointName, VariantName

Filtra as métricas de invocação de endpoint para uma ProductionVariant do endpoint e da variante especificados.

Os namespaces /aws/sagemaker/Endpoints incluem as seguintes métricas de instância em chamadas para InvokeEndpoint.

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.

Métricas de instâncias de modelos para endpoint multimodelo

Métrica Descrição
LoadedModelCount

O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância.

A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância.

A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint.

Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint.

Unidades: nenhuma

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

CPUUtilization

A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o CPUUtilization intervalo é de 0% a 400%.

Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância.

Unidades: percentual

MemoryUtilization

O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.

Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância.

Unidades: percentual

DiskUtilization

A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.

Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância.

Unidades: percentual

CloudWatch métricas para implantações de endpoints multimodelo de GPU

Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com GPU:

O AWS/SageMaker namespace inclui as seguintes métricas de carregamento do modelo a partir de chamadas para. InvokeEndpoint

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.

Métricas de carregamento de modelos de endpoint multimodelo

Métrica Descrição
ModelLoadingWaitTime

O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelUnloadingTime

O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API UnloadModel do contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelDownloadingTime

O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3).

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelLoadingTime

O intervalo de tempo necessário para carregar o modelo com a chamada de API LoadModel do contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ModelCacheHit

O número de solicitações InvokeEndpoint enviadas para o endpoint multimodelo para o qual o modelo já foi carregado.

A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado.

Unidades: nenhuma

Estatísticas válidas: média, soma, contagem de amostras

Dimensões para métricas de carregamento de modelos de endpoint multimodelo

Dimensão Descrição
EndpointName, VariantName

Filtra as métricas de invocação de endpoint para uma ProductionVariant do endpoint e da variante especificados.

Os namespaces /aws/sagemaker/Endpoints incluem as seguintes métricas de instância em chamadas para InvokeEndpoint.

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.

Métricas de instâncias de modelos para endpoint multimodelo

Métrica Descrição
LoadedModelCount

O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância.

A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância.

A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint.

Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint.

Unidades: nenhuma

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

CPUUtilization

A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o CPUUtilization intervalo é de 0% a 400%.

Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância.

Unidades: percentual

MemoryUtilization

O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.

Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância.

Unidades: percentual

GPUUtilization

O percentual de unidades de GPU usadas pelos contêineres em uma instância. O valor pode variar entre o intervalo de 0 a 100 e é multiplicado pelo número de. GPUs Por exemplo, se houver quatro GPUs, o GPUUtilization intervalo é de 0% a 400%.

Para variantes de endpoint, o valor é a soma da utilização de GPU dos contêineres principais e complementares na instância.

Unidades: percentual

GPUMemoryUtilization

O percentual de memória de GPU usada pelos contêineres em uma instância. O intervalo de valores é de 0 a 100 e é multiplicado pelo número de. GPUs Por exemplo, se houver quatro GPUs, o GPUMemoryUtilization intervalo será de 0% a 400%.

Para variantes de endpoint, o valor é a soma da utilização de memória de GPU dos contêineres principais e complementares na instância.

Unidades: percentual

DiskUtilization

A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.

Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância.

Unidades: percentual