Definir uma política de escalabilidade Defina uma política de escalabilidade dimensionada para zero Opcional: defina uma política de escalabilidade verticalmente de zero para novas solicitações

Escalabilidade automática de um endpoint assíncrono

O Amazon SageMaker AI oferece suporte à escalabilidade automática (escalonamento automático) do seu endpoint assíncrono. O ajuste de escala automático ajusta dinamicamente o número de instâncias provisionadas para um modelo em resposta às alterações na workload. Ao contrário de outros modelos hospedados que a Amazon SageMaker AI suporta, com a inferência assíncrona, você também pode reduzir suas instâncias de endpoints assíncronos para zero. As solicitações recebidas quando há zero instâncias na fila para processamento quando o endpoint aumenta a escala verticalmente.

Para escalar automaticamente seu endpoint assíncrono, você deve, no mínimo:

Registrar um modelo implantado (variante de produção).
Definir uma política de escalabilidade
Aplicar a política de auto scaling automático.

Antes de usar o escalonamento automático, você já deve ter implantado um modelo em um endpoint de IA. SageMaker Os modelos implantados são referidos como uma variante de produção. Consulte Implantar o modelo em serviços de SageMaker hospedagem para obter mais informações sobre a implantação de um modelo em um endpoint. Para especificar as métricas e os valores de destino de uma política de escalabilidade, você deve configurar uma política de escalabilidade. Para mais informações sobre como definir uma política de escalabilidade, consulte Definindo uma política de escalabilidade. Depois de registrar o modelo e definir uma política de escalabilidade, aplique a política de escalabilidade ao modelo registrado. Para mais informações sobre como aplicar uma política de escalabilidade, consulte Aplicar uma política de escalabilidade.

Para obter mais informações sobre como definir uma política de escalabilidade adicional opcional que aumenta a escala do seu endpoint ao receber uma solicitação após seu endpoint ter sido reduzido para zero, consulte Opcional: defina uma política de escalabilidade verticalmente de zero para novas solicitações. Se você não especificar essa política opcional, seu endpoint só iniciará o aumento da escala verticalmente a partir de zero depois que o número de solicitações de backlog exceder o valor de rastreamento de destino.

Para obter detalhes sobre outros pré-requisitos e componentes usados com o escalonamento automático, consulte a seção Pré-requisitos na documentação do escalonamento automático de IA. SageMaker

nota

Se você anexar várias políticas de escalabilidade ao mesmo grupo do AutoScaling, você pode ter conflitos de escalabilidade. Quando ocorre um conflito, o Amazon EC2 Auto Scaling escolhe a política que fornece a maior capacidade de expansão horizontal e ampliação. Para obter mais informações sobre esse comportamento, consulte Várias políticas de escalabilidade dinâmica na documentação do Amazon EC2 Auto Scaling.

Definir uma política de escalabilidade

Para especificar as métricas e os valores de destino de uma política de escalabilidade, você precisa configurar uma política de escalabilidade de rastreamento de destino. Defina a política de escalabilidade como um bloco JSON em um arquivo de texto. Você usa esse arquivo de texto ao invocar a AWS CLI ou a API Application Auto Scaling. Para mais informações sobre a sintaxe de configurações de política, consulte TargetTrackingScalingPolicyConfiguration na Referência de API de Auto Scaling do Aplicativo.

Para endpoints assíncronos, a SageMaker AI recomenda fortemente que você crie uma configuração de política para o escalonamento de rastreamento de metas para uma variante. Neste exemplo de configuração, usamos uma métrica personalizada, CustomizedMetricSpecification, chamada de ApproximateBacklogSizePerInstance.


TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 5.0, # The target value for the metric. Here the metric is: ApproximateBacklogSizePerInstance
        'CustomizedMetricSpecification': {
            'MetricName': 'ApproximateBacklogSizePerInstance',
            'Namespace': 'AWS/SageMaker',
            'Dimensions': [
                {'Name': 'EndpointName', 'Value': <endpoint_name> }
            ],
            'Statistic': 'Average',
        }
    }

Defina uma política de escalabilidade dimensionada para zero

Veja a seguir como definir e registrar sua variante de endpoint com o dimensionamento automático do aplicativo usando o AWS SDK for Python (Boto3). Depois de definir um objeto cliente de baixo nível representando o dimensionamento automático do aplicativo com o Boto3, usamos o método RegisterScalableTarget para registrar a variante de produção. Configuramos MinCapacity como 0 porque a inferência assíncrona permite a escalabilidade automática para 0 quando não há solicitações para processar.


# Common class representing application autoscaling for SageMaker 
client = boto3.client('application-autoscaling') 

# This is the format in which application autoscaling references the endpoint
resource_id='endpoint/' + <endpoint_name> + '/variant/' + <'variant1'> 

# Define and register your endpoint variant
response = client.register_scalable_target(
    ServiceNamespace='sagemaker', 
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', # The number of EC2 instances for your Amazon SageMaker model endpoint variant.
    MinCapacity=0,
    MaxCapacity=5
)

Para obter uma descrição detalhada sobre a API com dimensionamento automático de aplicativos, consulte a documentação do Escalonamento de Aplicativos Boto3.

Opcional: defina uma política de escalabilidade verticalmente de zero para novas solicitações

Você pode ter um caso de uso em que tenha solicitações esporádicas ou períodos com baixo número de solicitações. Se a escala do seu endpoint tiver sido reduzida verticalmente para zero instâncias durante esses períodos, ele não aumentará a escala verticalmente outra vez até que o número de solicitações na fila exceda a meta especificada em sua política de escalabilidade. Isso pode resultar em longos tempos de espera para solicitações na fila. A seção a seguir mostra como criar uma política de escalabilidade adicional que escale seu endpoint a partir de zero instâncias após receber qualquer nova solicitação na fila. Seu endpoint poderá responder a novas solicitações mais rapidamente, em vez de esperar que o tamanho da fila exceda a meta.

Para criar uma política de escalabilidade para seu endpoint que aumente a escala verticalmente a partir de zero instâncias, faça o seguinte:

Crie uma política de escalabilidade que defina o comportamento desejado, que é escalar seu endpoint quando ele está em zero instâncias, mas tem solicitações na fila. A seguir, mostramos como definir uma política de escalabilidade chamada de HasBacklogWithoutCapacity-ScalingPolicy usando o AWS SDK for Python (Boto3). Quando a fila é maior que zero e a contagem de instâncias atuais do seu endpoint também é zero, a política aumenta seu endpoint. Em todos os outros casos, a política não afeta o escalonamento do seu endpoint.


response = client.put_scaling_policy(
    PolicyName="HasBacklogWithoutCapacity-ScalingPolicy",
    ServiceNamespace="sagemaker",  # The namespace of the service that provides the resource.
    ResourceId=resource_id,  # Endpoint name
    ScalableDimension="sagemaker:variant:DesiredInstanceCount",  # SageMaker supports only Instance Count
    PolicyType="StepScaling",  # 'StepScaling' or 'TargetTrackingScaling'
    StepScalingPolicyConfiguration={
        "AdjustmentType": "ChangeInCapacity", # Specifies whether the ScalingAdjustment value in the StepAdjustment property is an absolute number or a percentage of the current capacity. 
        "MetricAggregationType": "Average", # The aggregation type for the CloudWatch metrics.
        "Cooldown": 300, # The amount of time, in seconds, to wait for a previous scaling activity to take effect. 
        "StepAdjustments": # A set of adjustments that enable you to scale based on the size of the alarm breach.
        [ 
            {
              "MetricIntervalLowerBound": 0,
              "ScalingAdjustment": 1
            }
          ]
    },    
)

Crie um CloudWatch alarme com a métrica personalizadaHasBacklogWithoutCapacity. Quando acionado, o alarme inicia a política de escalabilidade definida anteriormente. Para obter mais informações sobre métricas do HasBacklogWithoutCapacity, consulte Métricas de endpoint de inferência assíncrona.


response = cw_client.put_metric_alarm(
    AlarmName=step_scaling_policy_alarm_name,
    MetricName='HasBacklogWithoutCapacity',
    Namespace='AWS/SageMaker',
    Statistic='Average',
    EvaluationPeriods= 2,
    DatapointsToAlarm= 2,
    Threshold= 1,
    ComparisonOperator='GreaterThanOrEqualToThreshold',
    TreatMissingData='missing',
    Dimensions=[
        { 'Name':'EndpointName', 'Value':endpoint_name },
    ],
    Period= 60,
    AlarmActions=[step_scaling_policy_arn]
)

Agora você deve ter uma política de escalabilidade e um CloudWatch alarme que ampliem seu endpoint a partir de zero instâncias sempre que sua fila tiver solicitações pendentes.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Verifique dos resultados da previsão

Solução de problemas