Configurar a ajuste de escala automático do modelo com o console - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurar a ajuste de escala automático do modelo com o console

Para configurar o escalonamento automático para um modelo (console)
  1. Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/.

  2. No painel de navegação, escolha Inferência e, em seguida, escolha Endpoints.

  3. Escolha seu endpoint e, em seguida, para as configurações de tempo de execução do Endpoint, escolha a variante.

  4. Escolha Configurar o Auto Scaling.

  5. Na página Configurar escalabilidade automática da variante, para a escala automática da variante, faça o seguinte:

    1. Em Contagem mínima de instâncias, digite o número mínimo de instâncias que você deseja que a política de escalabilidade mantenha. Pelo menos 1 instância é necessária.

    2. Em Contagem máxima de instâncias, digite o número máximo de instâncias que você deseja que a política de escalabilidade mantenha.

  6. Para uma política de escalabilidade integrada, faça o seguinte:

    1. Para a métrica Target, SageMakerVariantInvocationsPerInstance é selecionada automaticamente para a métrica e não pode ser alterada.

    2. Para o valor alvo, digite o número médio de invocações por instância por minuto para o modelo. Para determinar esse valor, siga as instruções em Testes de carga.

    3. (Opcional) Para resfriamento em escala (segundos) e resfriamento em expansão (segundos), insira a quantidade de tempo, em segundos, para cada período de resfriamento.

    4. (Opcional) Selecione Desativar escalabilidade se você não quiser que o auto scaling encerre instâncias quando o tráfego diminuir.

  7. Escolha Salvar.

Esse procedimento registra um modelo como um destino escalável com o Application Auto Scaling. Quando você registra um modelo, o Application Auto Scaling executa verificações de validação para confirmar se:

  • O modelo existe

  • As permissões são suficientes

  • Você não está registrando uma variante com uma instância de desempenho ampliável, como a T2

    nota

    SageMaker não oferece suporte ao escalonamento automático para instâncias com capacidade de intermitência, como T2, porque elas já permitem maior capacidade sob cargas de trabalho maiores. Para obter informações sobre instâncias de desempenho com capacidade de intermitência, consulte os tipos de EC2 instância da Amazon.