CloudWatch métricas para endpoints multimodelo suportados por CPU CloudWatch métricas para implantações de endpoints multimodelo de GPU

CloudWatch Métricas para implantações de endpoints de vários modelos

A Amazon SageMaker AI fornece métricas para endpoints para que você possa monitorar a taxa de acerto do cache, o número de modelos carregados e os tempos de espera do modelo para carregamento, download e upload em um endpoint multimodelo. Algumas das métricas são diferentes para endpoints multimodelo suportados por CPU e GPU. Portanto, as seções a seguir descrevem as CloudWatch métricas da Amazon que você pode usar para cada tipo de endpoint multimodelo.

Para obter mais informações sobre métricas, consulte Métricas de carregamento do modelo para endpoint multimodelo e Métricas de instâncias de modelos para endpoint multimodelo em Métricas para monitorar a Amazon SageMaker AI com a Amazon CloudWatch. Métricas por modelo não são compatíveis.

CloudWatch métricas para endpoints multimodelo suportados por CPU

Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com CPU:

O AWS/SageMaker namespace inclui as seguintes métricas de carregamento do modelo a partir de chamadas para. InvokeEndpoint

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.

Métricas de carregamento de modelos de endpoint multimodelo

Métrica	Descrição
`ModelLoadingWaitTime`	O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ModelUnloadingTime`	O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API `UnloadModel` do contêiner. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ModelDownloadingTime`	O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3). Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ModelLoadingTime`	O intervalo de tempo necessário para carregar o modelo com a chamada de API `LoadModel` do contêiner. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ModelCacheHit`	O número de solicitações `InvokeEndpoint` enviadas para o endpoint multimodelo para o qual o modelo já foi carregado. A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado. Unidades: nenhuma Estatísticas válidas: média, soma, contagem de amostras

Dimensões para métricas de carregamento de modelos de endpoint multimodelo

Dimensão	Descrição
`EndpointName, VariantName`	Filtra as métricas de invocação de endpoint para uma `ProductionVariant` do endpoint e da variante especificados.

Os namespaces /aws/sagemaker/Endpoints incluem as seguintes métricas de instância em chamadas para InvokeEndpoint.

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.

Métricas de instâncias de modelos para endpoint multimodelo

Métrica	Descrição
`LoadedModelCount`	O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância. A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância. A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint. Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint. Unidades: nenhuma Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`CPUUtilization`	A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o `CPUUtilization` intervalo é de 0% a 400%. Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância. Unidades: percentual
`MemoryUtilization`	O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância. Unidades: percentual
`DiskUtilization`	A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância. Unidades: percentual

CloudWatch métricas para implantações de endpoints multimodelo de GPU

Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com GPU:

O AWS/SageMaker namespace inclui as seguintes métricas de carregamento do modelo a partir de chamadas para. InvokeEndpoint

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.

Métricas de carregamento de modelos de endpoint multimodelo

Métrica	Descrição
`ModelLoadingWaitTime`	O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ModelUnloadingTime`	O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API `UnloadModel` do contêiner. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ModelDownloadingTime`	O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3). Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ModelLoadingTime`	O intervalo de tempo necessário para carregar o modelo com a chamada de API `LoadModel` do contêiner. Unidade: microssegundos Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`ModelCacheHit`	O número de solicitações `InvokeEndpoint` enviadas para o endpoint multimodelo para o qual o modelo já foi carregado. A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado. Unidades: nenhuma Estatísticas válidas: média, soma, contagem de amostras

Dimensões para métricas de carregamento de modelos de endpoint multimodelo

Dimensão	Descrição
`EndpointName, VariantName`	Filtra as métricas de invocação de endpoint para uma `ProductionVariant` do endpoint e da variante especificados.

Os namespaces /aws/sagemaker/Endpoints incluem as seguintes métricas de instância em chamadas para InvokeEndpoint.

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte GetMetricStatisticsa Amazon CloudWatch API Reference.

Métricas de instâncias de modelos para endpoint multimodelo

Métrica	Descrição
`LoadedModelCount`	O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância. A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância. A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint. Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint. Unidades: nenhuma Estatísticas válidas: média, soma, mín., máx., contagem de amostras
`CPUUtilization`	A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o `CPUUtilization` intervalo é de 0% a 400%. Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância. Unidades: percentual
`MemoryUtilization`	O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância. Unidades: percentual
`GPUUtilization`	O percentual de unidades de GPU usadas pelos contêineres em uma instância. O valor pode variar entre o intervalo de 0 a 100 e é multiplicado pelo número de. GPUs Por exemplo, se houver quatro GPUs, o `GPUUtilization` intervalo é de 0% a 400%. Para variantes de endpoint, o valor é a soma da utilização de GPU dos contêineres principais e complementares na instância. Unidades: percentual
`GPUMemoryUtilization`	O percentual de memória de GPU usada pelos contêineres em uma instância. O intervalo de valores é de 0 a 100 e é multiplicado pelo número de. GPUs Por exemplo, se houver quatro GPUs, o `GPUMemoryUtilization` intervalo será de 0% a 400%. Para variantes de endpoint, o valor é a soma da utilização de memória de GPU dos contêineres principais e complementares na instância. Unidades: percentual
`DiskUtilization`	A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%. Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância. Unidades: percentual

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Segurança

Defina o SageMaker comportamento de cache do modelo de endpoint multimodelo de IA