Métricas do CloudWatch para implantações de endpoint multimodelo
O Amazon SageMaker fornece métricas para endpoints para que você possa monitorar a taxa de acertos do cache, o número de modelos carregados e os tempos de espera do modelo para carregar e fazer download e upload em um endpoint multimodelo. Algumas das métricas são diferentes para endpoints multimodelo compatíveis com CPU e GPU, então as seções a seguir descrevem as métricas do Amazon CloudWatch que você pode usar para cada tipo de endpoint multimodelo.
Para obter mais informações sobre métricas, consulte Métricas de carregamento do modelo para endpoint multimodelo e Métricas de instâncias de modelos para endpoint multimodelo em Métricas para monitoramento do Amazon SageMaker com o Amazon CloudWatch. Métricas por modelo não são compatíveis.
As métricas do CloudWatch para endpoints multimodelo com compatibilidade com CPU
Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com CPU:
O namespace AWS/SageMaker
inclui as seguintes métricas de carregamento de modelo em chamadas para InvokeEndpoint:
As métricas estão disponíveis a uma frequência de 1 minuto.
Para obter informações sobre por quanto tempo as métricas do CloudWatch são retidas, consulte GetMetricStatistics na Referência da API do Amazon CloudWatch.
Métricas de carregamento de modelos de endpoint multimodelo
Métrica | Descrição |
---|---|
ModelLoadingWaitTime |
O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelUnloadingTime |
O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelDownloadingTime |
O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3). Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelLoadingTime |
O intervalo de tempo necessário para carregar o modelo com a chamada de API Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelCacheHit |
O número de solicitações A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado. Unidades: nenhuma Estatísticas válidas: média, soma, contagem de amostras |
Dimensões para métricas de carregamento de modelos de endpoint multimodelo
Dimensão | Descrição |
---|---|
EndpointName, VariantName |
Filtra as métricas de invocação de endpoint para uma |
Os namespaces /aws/sagemaker/Endpoints
incluem as seguintes métricas de instância em chamadas para InvokeEndpoint:
As métricas estão disponíveis a uma frequência de 1 minuto.
Para obter informações sobre por quanto tempo as métricas do CloudWatch são retidas, consulte GetMetricStatistics na Referência da API do Amazon CloudWatch.
Métricas de instâncias de modelos para endpoint multimodelo
Métrica | Descrição |
---|---|
LoadedModelCount |
O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância. A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância. A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint. Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint. Unidades: nenhuma Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
CPUUtilization |
A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o intervalo de Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância. Unidades: percentual |
MemoryUtilization |
O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância. Unidades: percentual |
DiskUtilization |
A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância. Unidades: percentual |
Métricas do CloudWatch para implantações de endpoint multimodelo do GPU.
Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com GPU:
O namespace AWS/SageMaker
inclui as seguintes métricas de carregamento de modelo em chamadas para InvokeEndpoint:
As métricas estão disponíveis a uma frequência de 1 minuto.
Para obter informações sobre por quanto tempo as métricas do CloudWatch são retidas, consulte GetMetricStatistics na Referência da API do Amazon CloudWatch.
Métricas de carregamento de modelos de endpoint multimodelo
Métrica | Descrição |
---|---|
ModelLoadingWaitTime |
O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelUnloadingTime |
O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelDownloadingTime |
O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3). Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelLoadingTime |
O intervalo de tempo necessário para carregar o modelo com a chamada de API Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
ModelCacheHit |
O número de solicitações A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado. Unidades: nenhuma Estatísticas válidas: média, soma, contagem de amostras |
Dimensões para métricas de carregamento de modelos de endpoint multimodelo
Dimensão | Descrição |
---|---|
EndpointName, VariantName |
Filtra as métricas de invocação de endpoint para uma |
Os namespaces /aws/sagemaker/Endpoints
incluem as seguintes métricas de instância em chamadas para InvokeEndpoint:
As métricas estão disponíveis a uma frequência de 1 minuto.
Para obter informações sobre por quanto tempo as métricas do CloudWatch são retidas, consulte GetMetricStatistics na Referência da API do Amazon CloudWatch.
Métricas de instâncias de modelos para endpoint multimodelo
Métrica | Descrição |
---|---|
LoadedModelCount |
O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância. A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância. A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint. Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint. Unidades: nenhuma Estatísticas válidas: média, soma, mín., máx., contagem de amostras |
CPUUtilization |
A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o intervalo de Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância. Unidades: percentual |
MemoryUtilization |
O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância. Unidades: percentual |
GPUUtilization |
O percentual de unidades de GPU usadas pelos contêineres em uma instância. O valor pode variar entre 0 e 100 e é multiplicado pelo número de GPUs. Por exemplo, se houver quatro CPUs, o intervalo de Para variantes de endpoint, o valor é a soma da utilização de GPU dos contêineres principais e complementares na instância. Unidades: percentual |
GPUMemoryUtilization |
O percentual de memória de GPU usada pelos contêineres em uma instância. O intervalo de valores é de 0 a 100 e é multiplicado pelo número de GPUs. Por exemplo, se houver quatro CPUs, o intervalo de Para variantes de endpoint, o valor é a soma da utilização de memória de GPU dos contêineres principais e complementares na instância. Unidades: percentual |
DiskUtilization |
A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância. Unidades: percentual |