As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
CloudWatch Métricas para implantações de endpoints de vários modelos
A Amazon SageMaker AI fornece métricas para endpoints para que você possa monitorar a taxa de acerto do cache, o número de modelos carregados e os tempos de espera do modelo para carregamento, download e upload em um endpoint multimodelo. Algumas das métricas são diferentes para endpoints multimodelo suportados por CPU e GPU. Portanto, as seções a seguir descrevem as CloudWatch métricas da Amazon que você pode usar para cada tipo de endpoint multimodelo.
Para obter mais informações sobre métricas, consulte Métricas de carregamento do modelo para endpoint multimodelo e Métricas de instâncias de modelos para endpoint multimodelo em Métricas para monitorar a Amazon SageMaker AI com a Amazon CloudWatch. Métricas por modelo não são compatíveis.
CloudWatch métricas para endpoints multimodelo suportados por CPU
Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com CPU:
O AWS/SageMaker
namespace inclui as seguintes métricas de carregamento do modelo a partir de chamadas para. InvokeEndpoint
As métricas estão disponíveis a uma frequência de 1 minuto.
Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.
Métricas de carregamento de modelos de endpoint multimodelo
Métrica | Descrição |
---|---|
ModelLoadingWaitTime |
O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelUnloadingTime |
O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelDownloadingTime |
O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3). Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelLoadingTime |
O intervalo de tempo necessário para carregar o modelo com a chamada de API Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelCacheHit |
O número de solicitações A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado. Unidades: nenhuma Estatísticas válidas: média, soma, contagem de amostras |
Dimensões para métricas de carregamento de modelos de endpoint multimodelo
Dimensão | Descrição |
---|---|
EndpointName, VariantName |
Filtra as métricas de invocação de endpoint para uma |
Os namespaces /aws/sagemaker/Endpoints
incluem as seguintes métricas de instância em chamadas para InvokeEndpoint.
As métricas estão disponíveis a uma frequência de 1 minuto.
Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.
Métricas de instâncias de modelos para endpoint multimodelo
Métrica | Descrição |
---|---|
LoadedModelCount |
O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância. A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância. A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint. Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint. Unidades: nenhuma Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
CPUUtilization |
A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância. Unidades: percentual |
MemoryUtilization |
O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância. Unidades: percentual |
DiskUtilization |
A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância. Unidades: percentual |
CloudWatch métricas para implantações de endpoints multimodelo de GPU
Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com GPU:
O AWS/SageMaker
namespace inclui as seguintes métricas de carregamento do modelo a partir de chamadas para. InvokeEndpoint
As métricas estão disponíveis a uma frequência de 1 minuto.
Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.
Métricas de carregamento de modelos de endpoint multimodelo
Métrica | Descrição |
---|---|
ModelLoadingWaitTime |
O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelUnloadingTime |
O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelDownloadingTime |
O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3). Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelLoadingTime |
O intervalo de tempo necessário para carregar o modelo com a chamada de API Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelCacheHit |
O número de solicitações A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado. Unidades: nenhuma Estatísticas válidas: média, soma, contagem de amostras |
Dimensões para métricas de carregamento de modelos de endpoint multimodelo
Dimensão | Descrição |
---|---|
EndpointName, VariantName |
Filtra as métricas de invocação de endpoint para uma |
Os namespaces /aws/sagemaker/Endpoints
incluem as seguintes métricas de instância em chamadas para InvokeEndpoint.
As métricas estão disponíveis a uma frequência de 1 minuto.
Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.
Métricas de instâncias de modelos para endpoint multimodelo
Métrica | Descrição |
---|---|
LoadedModelCount |
O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância. A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância. A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint. Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint. Unidades: nenhuma Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
CPUUtilization |
A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância. Unidades: percentual |
MemoryUtilization |
O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância. Unidades: percentual |
GPUUtilization |
O percentual de unidades de GPU usadas pelos contêineres em uma instância. O valor pode variar entre o intervalo de 0 a 100 e é multiplicado pelo número de. GPUs Por exemplo, se houver quatro GPUs, o Para variantes de endpoint, o valor é a soma da utilização de GPU dos contêineres principais e complementares na instância. Unidades: percentual |
GPUMemoryUtilization |
O percentual de memória de GPU usada pelos contêineres em uma instância. O intervalo de valores é de 0 a 100 e é multiplicado pelo número de. GPUs Por exemplo, se houver quatro GPUs, o Para variantes de endpoint, o valor é a soma da utilização de memória de GPU dos contêineres principais e complementares na instância. Unidades: percentual |
DiskUtilization |
A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância. Unidades: percentual |