Pré-requisitos de escalonamento automático

Antes de usar o auto scaling, você já deve ter criado um SageMaker modelo de endpoint da Amazon. Você pode ter várias versões de modelo para o mesmo endpoint. Cada modelo é chamado de variante de produção (modelo). Para mais informações sobre como implantar um endpoint de modelo, consulte Implante o modelo em serviços SageMaker de hospedagem.

Para ativar o escalonamento automático para um modelo, você pode usar o SageMaker console, o AWS Command Line Interface (AWS CLI) ou um AWS SDK por meio do Application API Auto Scaling.

Se esta é a primeira vez que você configura o dimensionamento de um modelo, recomendamos você. Configurar a ajuste de escala automático do modelo com o console
Ao usar o AWS CLI ou o Application Auto ScalingAPI, o fluxo é registrar o modelo como um alvo escalável, definir a política de escalabilidade e, em seguida, aplicá-la. No SageMaker console, em Inferência no painel de navegação, escolha Endpoints. Encontre o nome do endpoint do seu modelo e, em seguida, escolha-o para encontrar o nome da variante. Você deve especificar o nome do endpoint e o nome da variante para ativar o escalonamento automático para um modelo.

O escalonamento automático é possível graças a uma combinação de Amazon SageMaker CloudWatch, Amazon e Application APIs Auto Scaling. Para obter informações sobre as permissões mínimas necessárias, consulte exemplos de políticas baseadas em identidade do Application Auto Scaling no Guia do Usuário do Application Auto Scaling.

A SagemakerFullAccessPolicy IAM política tem todas as IAM permissões necessárias para realizar o escalonamento automático. Para obter mais informações sobre SageMaker IAM permissões, consulteComo usar funções SageMaker de execução.

Se você gerencia sua própria política de permissão, deverá incluir as seguintes permissões:


{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "sagemaker:DescribeEndpoint",
        "sagemaker:DescribeEndpointConfig",
        "sagemaker:UpdateEndpointWeightsAndCapacities"
      ],
      "Resource": "*"
    },
    {    
        "Effect": "Allow",
        "Action": [
            "application-autoscaling:*"
        ],
        "Resource": "*"
    },
    {
      "Effect": "Allow",
      "Action": "iam:CreateServiceLinkedRole",
      "Resource": "arn:aws:iam::*:role/aws-service-role/sagemaker.application-autoscaling.amazonaws.com/AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint",
      "Condition": {
        "StringLike": { "iam:AWSServiceName": "sagemaker.application-autoscaling.amazonaws.com"	}
      }
    },
    {
      "Effect": "Allow",
      "Action": [
        "cloudwatch:PutMetricAlarm",
        "cloudwatch:DescribeAlarms",
        "cloudwatch:DeleteAlarms"
      ],
      "Resource": "*"
    }
  ]
}

Perfil vinculado a serviço

O escalonamento automático usa a função vinculada ao AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint serviço. Essa função vinculada ao serviço concede permissão ao Application Auto Scaling para descrever os alarmes de suas políticas, monitorar os níveis de capacidade atuais e escalar o recurso de destino. Essa função é criada automaticamente para você. Para que a criação automática da função seja bem-sucedida, você precisa ter permissão para a iam:CreateServiceLinkedRole ação. Para obter mais informações, consulte Funções vinculadas ao serviço no Guia do usuário do Application Auto Scaling.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Visão geral das políticas de ajuste de escala automático

Configurar a ajuste de escala automático do modelo com o console