Testes de carga da configuração de ajuste de escala automático - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Testes de carga da configuração de ajuste de escala automático

Execute testes de carga para escolher uma configuração de escalabilidade que funcione da maneira desejada.

As diretrizes a seguir para testes de carga pressupõem que você esteja usando uma política de escalabilidade que usa a métrica alvo predefinida. SageMakerVariantInvocationsPerInstance

Determinar as características de desempenho

Execute testes de carga para encontrar o pico InvocationsPerInstance com o qual a variante de produção do modelo pode lidar, bem como a latência das solicitações à medida que a simultaneidade aumenta.

Esse valor depende do tipo de instância escolhido, das cargas que os clientes do modelo normalmente enviam, e do desempenho de qualquer dependência externa que o modelo tem.

Para encontrar o pico requests-per-second (RPS), a variante de produção do seu modelo pode lidar com a latência das solicitações
  1. Configure um endpoint com o modelo usando uma única instância. Para obter informações sobre como configurar um endpoint, consulte Implante o modelo em serviços SageMaker de hospedagem.

  2. Use uma ferramenta de teste de carga para gerar um número cada vez maior de solicitações paralelas, monitorar RPS e modelar a latência na saída da ferramenta de teste de carga.

    nota

    Você também pode monitorar requests-per-minute em vez deRPS. Nesse caso, na equação, não multiplique por 60 para calcular o SageMakerVariantInvocationsPerInstance mostrado abaixo.

    Quando a latência do modelo aumenta ou a proporção de transações bem-sucedidas diminui, esse é o pico RPS que seu modelo pode suportar.

Calcular a carga do destino

Depois de encontrar as características de desempenho da variante, você pode determinar o máximo que RPS devemos permitir que seja enviado para uma instância. O limite usado para a escalabilidade deve ser menor que esse valor máximo. Use a equação a seguir em combinação com o teste de carga para determinar o valor correto da métrica SageMakerVariantInvocationsPerInstance alvo em sua configuração de escalabilidade.

SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

Onde MAX_RPS está o máximo RPS que você determinou anteriormente e SAFETY_FACTOR é o fator de segurança que você escolheu para garantir que seus clientes não excedam o máximoRPS. Multiplique por 60 para converter de RPS para para corresponder invocations-per-minute à CloudWatch métrica por minuto SageMaker usada para implementar o escalonamento automático (você não precisa fazer isso se tiver medido requests-per-minute em vez de). requests-per-second

nota

SageMaker recomenda que você comece o teste com SAFETY_FACTOR 0,5. Teste sua configuração de escalabilidade para garantir que ela opere da maneira que você espera com seu modelo, tanto para aumentar quanto para diminuir o tráfego de clientes em seu endpoint.