Amazon SageMaker e Application Auto Scaling - Application Auto Scaling

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon SageMaker e Application Auto Scaling

Puoi scalare le varianti SageMaker degli endpoint, il provisioning della concorrenza per gli endpoint serverless e i componenti di inferenza utilizzando le policy di scalabilità di Target Tracking, le policy di scalabilità in fasi e la scalabilità pianificata.

Utilizzate le seguenti informazioni per facilitare l'integrazione SageMaker con Application Auto Scaling.

Ruolo collegato ai servizi creato per SageMaker

Il seguente ruolo collegato ai servizi viene creato automaticamente al Account AWS momento della registrazione SageMaker delle risorse come destinazioni scalabili con Application Auto Scaling. Questo ruolo consente ad Application Auto Scaling di eseguire le operazioni supportate all'interno dell'account. Per ulteriori informazioni, consulta Ruoli collegati ai servizi per Application Auto Scaling.

  • AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint

Principale del servizio utilizzato dal ruolo collegato ai servizi

Il ruolo collegato ai servizi nella sezione precedente può essere assunto solo dal principale del servizio autorizzato dalle relazioni di attendibilità definite per il ruolo. Il ruolo collegato ai servizi utilizzato da Application Auto Scaling concede l'accesso al seguente principale del servizio:

  • sagemaker.application-autoscaling.amazonaws.com

Registrazione delle varianti SageMaker degli endpoint come destinazioni scalabili con Application Auto Scaling

Application Auto Scaling richiede un target scalabile prima di poter creare politiche di scalabilità o azioni pianificate per un SageMaker modello (variante). Un obiettivo scalabile è una risorsa la cui dimensione può essere aumentata e ridotta orizzontalmente da Application Auto Scaling. Gli obiettivi scalabili sono identificati in modo univoco dalla combinazione di ID risorsa, dimensione scalabile e spazio dei nomi.

Se configuri la scalabilità automatica utilizzando la SageMaker console, registra SageMaker automaticamente una destinazione scalabile per te.

Se desideri configurare la scalabilità automatica utilizzando la AWS CLI o uno degli SDK, puoi utilizzare AWS le seguenti opzioni:

  • AWS CLI:

    Richiama il register-scalable-targetcomando per una variante di prodotto. Nell'esempio seguente viene registrato il conteggio delle istanze desiderato per una variante prodotto denominata my-variant, in esecuzione sull'endpoint my-endpoint, con una capacità minima di un'istanza e una capacità massima di otto istanze.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --resource-id endpoint/my-endpoint/variant/my-variant \ --min-capacity 1 \ --max-capacity 8

    In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    Chiama l'operazione RegisterScalableTarget e fornisci ResourceId, ScalableDimension, ServiceNamespace, MinCapacity e MaxCapacity come parametri.

Registrazione del provisioning simultaneo degli endpoint serverless come obiettivi dimensionabili con Application Auto Scaling

Inoltre, Application Auto Scaling richiede un obiettivo dimensionabile prima di poter creare policy di dimensionamento oppure operazioni pianificate per il provisioning simultaneo degli endpoint serverless.

Se configuri la scalabilità automatica utilizzando la SageMaker console, registra SageMaker automaticamente una destinazione scalabile per te.

Altrimenti, utilizza uno dei seguenti metodi per registrare l'obiettivo dimensionabile:

  • AWS CLI:

    Richiama il register-scalable-targetcomando per una variante di prodotto. Nell'esempio seguente viene registrato il provisioning simultaneo per una variante di prodotto denominata my-variant, in esecuzione sull'endpoint my-endpoint, con una capacità minima di uno e una capacità massima di dieci.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/my-endpoint/variant/my-variant \ --min-capacity 1 \ --max-capacity 10

    In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    Chiama l'operazione RegisterScalableTarget e fornisci ResourceId, ScalableDimension, ServiceNamespace, MinCapacity e MaxCapacity come parametri.

Registrazione di componenti di inferenza come target scalabili con Application Auto Scaling

Application Auto Scaling richiede un target scalabile, prima di poter creare policy di dimensionamento o operazioni pianificate per i componenti di inferenza.

  • AWS CLI:

    Chiama il register-scalable-targetcomando per un componente di inferenza. Nell'esempio seguente viene registrato il numero desiderato di copie per un componente di inferenza denominato my-inference-component, con una capacità minima di zero copie e una capacità massima di tre copie.

    aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:inference-component:DesiredCopyCount \ --resource-id inference-component/my-inference-component \ --min-capacity 0 \ --max-capacity 3

    In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.

    { "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123" }
  • AWS SDK:

    Chiama l'operazione RegisterScalableTarget e fornisci ResourceId, ScalableDimension, ServiceNamespace, MinCapacity e MaxCapacity come parametri.

Se hai appena iniziato a usare Application Auto Scaling, puoi trovare ulteriori informazioni utili sulla scalabilità SageMaker delle tue risorse nella Amazon SageMaker Developer Guide:

Nota

Nel 2023, SageMaker ha introdotto nuove funzionalità di inferenza basate su endpoint di inferenza in tempo reale. Si crea un SageMaker endpoint con una configurazione dell'endpoint che definisce il tipo di istanza e il numero iniziale di istanze per l'endpoint. Quindi, crea un componente di inferenza, che è un oggetto di SageMaker hosting che puoi utilizzare per distribuire un modello su un endpoint. Per informazioni sulla scalabilità dei componenti di inferenza, consulta Amazon SageMaker aggiunge nuove funzionalità di inferenza per aiutare a ridurre i costi e la latenza di implementazione del modello di base e riduce i costi di implementazione del modello del 50% in media utilizzando le funzionalità più recenti di Amazon SageMaker sul blog. AWS