Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon SageMaker e Application Auto Scaling
Puoi scalare le varianti SageMaker degli endpoint, il provisioning della concorrenza per gli endpoint serverless e i componenti di inferenza utilizzando le policy di scalabilità di Target Tracking, le policy di scalabilità in fasi e la scalabilità pianificata.
Utilizzate le seguenti informazioni per facilitare l'integrazione SageMaker con Application Auto Scaling.
Ruolo collegato ai servizi creato per SageMaker
Il seguente ruolo collegato ai servizi viene creato automaticamente al Account AWS momento della registrazione SageMaker delle risorse come destinazioni scalabili con Application Auto Scaling. Questo ruolo consente ad Application Auto Scaling di eseguire le operazioni supportate all'interno dell'account. Per ulteriori informazioni, consulta Ruoli collegati ai servizi per Application Auto Scaling.
-
AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint
Principale del servizio utilizzato dal ruolo collegato ai servizi
Il ruolo collegato ai servizi nella sezione precedente può essere assunto solo dal principale del servizio autorizzato dalle relazioni di attendibilità definite per il ruolo. Il ruolo collegato ai servizi utilizzato da Application Auto Scaling concede l'accesso al seguente principale del servizio:
-
sagemaker.application-autoscaling.amazonaws.com
Registrazione delle varianti SageMaker degli endpoint come destinazioni scalabili con Application Auto Scaling
Application Auto Scaling richiede un target scalabile prima di poter creare politiche di scalabilità o azioni pianificate per un SageMaker modello (variante). Un obiettivo scalabile è una risorsa la cui dimensione può essere aumentata e ridotta orizzontalmente da Application Auto Scaling. Gli obiettivi scalabili sono identificati in modo univoco dalla combinazione di ID risorsa, dimensione scalabile e spazio dei nomi.
Se configuri la scalabilità automatica utilizzando la SageMaker console, registra SageMaker automaticamente una destinazione scalabile per te.
Se desideri configurare la scalabilità automatica utilizzando la AWS CLI o uno degli SDK, puoi utilizzare AWS le seguenti opzioni:
-
AWS CLI:
Richiama il register-scalable-targetcomando per una variante di prodotto. Nell'esempio seguente viene registrato il conteggio delle istanze desiderato per una variante prodotto denominata
my-variant
, in esecuzione sull'endpointmy-endpoint
, con una capacità minima di un'istanza e una capacità massima di otto istanze.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity8
In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Chiama l'operazione RegisterScalableTarget e fornisci
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
eMaxCapacity
come parametri.
Registrazione del provisioning simultaneo degli endpoint serverless come obiettivi dimensionabili con Application Auto Scaling
Inoltre, Application Auto Scaling richiede un obiettivo dimensionabile prima di poter creare policy di dimensionamento oppure operazioni pianificate per il provisioning simultaneo degli endpoint serverless.
Se configuri la scalabilità automatica utilizzando la SageMaker console, registra SageMaker automaticamente una destinazione scalabile per te.
Altrimenti, utilizza uno dei seguenti metodi per registrare l'obiettivo dimensionabile:
-
AWS CLI:
Richiama il register-scalable-targetcomando per una variante di prodotto. Nell'esempio seguente viene registrato il provisioning simultaneo per una variante di prodotto denominata
my-variant
, in esecuzione sull'endpointmy-endpoint
, con una capacità minima di uno e una capacità massima di dieci.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity10
In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Chiama l'operazione RegisterScalableTarget e fornisci
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
eMaxCapacity
come parametri.
Registrazione di componenti di inferenza come target scalabili con Application Auto Scaling
Application Auto Scaling richiede un target scalabile, prima di poter creare policy di dimensionamento o operazioni pianificate per i componenti di inferenza.
-
AWS CLI:
Chiama il register-scalable-targetcomando per un componente di inferenza. Nell'esempio seguente viene registrato il numero desiderato di copie per un componente di inferenza denominato
my-inference-component
, con una capacità minima di zero copie e una capacità massima di tre copie.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:inference-component:DesiredCopyCount \ --resource-id inference-component/
my-inference-component
\ --min-capacity0
\ --max-capacity3
In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Chiama l'operazione RegisterScalableTarget e fornisci
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
eMaxCapacity
come parametri.
Risorse correlate
Se hai appena iniziato a usare Application Auto Scaling, puoi trovare ulteriori informazioni utili sulla scalabilità SageMaker delle tue risorse nella Amazon SageMaker Developer Guide:
Nota
Nel 2023, SageMaker ha introdotto nuove funzionalità di inferenza basate su endpoint di inferenza in tempo reale. Si crea un SageMaker endpoint con una configurazione dell'endpoint che definisce il tipo di istanza e il numero iniziale di istanze per l'endpoint. Quindi, crea un componente di inferenza, che è un oggetto di SageMaker hosting che puoi utilizzare per distribuire un modello su un endpoint. Per informazioni sulla scalabilità dei componenti di inferenza, consulta Amazon SageMaker aggiunge nuove funzionalità di inferenza per aiutare a ridurre i costi e la latenza di implementazione del modello di base