Prerequisiti per la scalabilità automatica

Prima di poter utilizzare la scalabilità automatica, devi aver già creato un endpoint modello Amazon SageMaker AI. Puoi avere più versioni del modello per lo stesso endpoint. Ogni modello viene definito variante di produzione (modello). Per maggiori informazioni sulla distribuzione di un endpoint di un modello, consulta Implementa il modello su AI Hosting Services SageMaker .

Per attivare la scalabilità automatica per un modello, puoi utilizzare la console SageMaker AI, il AWS Command Line Interface (AWS CLI) o un AWS SDK tramite Application Auto API Scaling.

Se è la prima volta che configuri il ridimensionamento per un modello, ti consigliamo. Configurazione del modello di scalabilità automatica con la console
Quando si utilizza AWS CLI o Application Auto ScalingAPI, il flusso consiste nel registrare il modello come destinazione scalabile, definire la politica di scalabilità e quindi applicarla. Sulla console SageMaker AI, in Inference nel riquadro di navigazione, scegli Endpoints. Trova il nome dell'endpoint del modello, quindi sceglilo per trovare il nome della variante. È necessario specificare sia il nome dell'endpoint che il nome della variante per attivare la scalabilità automatica per un modello.

L'auto scaling è reso possibile da una combinazione di Amazon SageMaker AI CloudWatch, Amazon e Application Auto APIs Scaling. Per informazioni sulle autorizzazioni minime richieste, consulta gli esempi di policy basate sull'identità di Application Auto Scaling nella Application Auto Scaling User Guide.

La SagemakerFullAccessPolicy IAM policy dispone di tutte le IAM autorizzazioni necessarie per eseguire il ridimensionamento automatico. Per ulteriori informazioni sulle IAM autorizzazioni SageMaker AI, consulta. Come utilizzare i ruoli di esecuzione dell' SageMaker IA

Se gestisci la tua politica di autorizzazione, devi includere le seguenti autorizzazioni:


{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "sagemaker:DescribeEndpoint",
        "sagemaker:DescribeEndpointConfig",
        "sagemaker:UpdateEndpointWeightsAndCapacities"
      ],
      "Resource": "*"
    },
    {    
        "Effect": "Allow",
        "Action": [
            "application-autoscaling:*"
        ],
        "Resource": "*"
    },
    {
      "Effect": "Allow",
      "Action": "iam:CreateServiceLinkedRole",
      "Resource": "arn:aws:iam::*:role/aws-service-role/sagemaker.application-autoscaling.amazonaws.com/AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint",
      "Condition": {
        "StringLike": { "iam:AWSServiceName": "sagemaker.application-autoscaling.amazonaws.com"	}
      }
    },
    {
      "Effect": "Allow",
      "Action": [
        "cloudwatch:PutMetricAlarm",
        "cloudwatch:DescribeAlarms",
        "cloudwatch:DeleteAlarms"
      ],
      "Resource": "*"
    }
  ]
}

Ruolo collegato al servizio

La scalabilità automatica utilizza il ruolo collegato al AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint servizio. Questo ruolo collegato al servizio concede all'Application Auto Scaling l'autorizzazione a descrivere gli allarmi per le politiche, monitorare i livelli di capacità attuali e scalare la risorsa di destinazione. Questo ruolo viene creato automaticamente per te. Affinché la creazione automatica del ruolo abbia esito positivo, è necessario disporre dell'autorizzazione per l'iam:CreateServiceLinkedRoleazione. Per ulteriori informazioni, consulta Ruoli collegati ai servizi nella Guida per l'utente di Application Auto Scaling.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Panoramica della policy sulla scalabilità automatica

Configurazione del modello di scalabilità automatica con la console