Configurar a ajuste de escala automático do modelo com o console

Para configurar o escalonamento automático para um modelo (console)

Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/.
No painel de navegação, escolha Inferência e, em seguida, escolha Endpoints.
Escolha seu endpoint e, em seguida, para as configurações de tempo de execução do Endpoint, escolha a variante.
Escolha Configurar o Auto Scaling.
Na página Configurar escalabilidade automática da variante, para a escala automática da variante, faça o seguinte:
1. Em Contagem mínima de instâncias, digite o número mínimo de instâncias que você deseja que a política de escalabilidade mantenha. Pelo menos 1 instância é necessária.
2. Em Contagem máxima de instâncias, digite o número máximo de instâncias que você deseja que a política de escalabilidade mantenha.
Para uma política de escalabilidade integrada, faça o seguinte:
1. Para a métrica Target, SageMakerVariantInvocationsPerInstance é selecionada automaticamente para a métrica e não pode ser alterada.
2. Para o valor alvo, digite o número médio de invocações por instância por minuto para o modelo. Para determinar esse valor, siga as instruções em Testes de carga.
3. (Opcional) Para resfriamento em escala (segundos) e resfriamento em expansão (segundos), insira a quantidade de tempo, em segundos, para cada período de resfriamento.
4. (Opcional) Selecione Desativar escalabilidade se você não quiser que o auto scaling encerre instâncias quando o tráfego diminuir.
Escolha Salvar.

Esse procedimento registra um modelo como um destino escalável com o Application Auto Scaling. Quando você registra um modelo, o Application Auto Scaling executa verificações de validação para confirmar se:

O modelo existe
As permissões são suficientes
Você não está registrando uma variante com uma instância de desempenho ampliável, como a T2

nota
SageMaker não oferece suporte ao escalonamento automático para instâncias com capacidade de intermitência, como T2, porque elas já permitem maior capacidade sob cargas de trabalho maiores. Para obter informações sobre instâncias de desempenho com capacidade de intermitência, consulte os tipos de EC2 instância da Amazon.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pré-requisitos

Registrar um modelo

Configurar a ajuste de escala automático do modelo com o console

Para configurar o escalonamento automático para um modelo (console)

nota