Ruolo collegato al servizio Principale del servizio Registrazione delle varianti di endpoint SageMaker AI come obiettivi scalabili con Application Auto Scaling Registrazione del provisioning simultaneo degli endpoint serverless come obiettivi dimensionabili con Application Auto Scaling Registrazione di componenti di inferenza come target scalabili con Application Auto Scaling Risorse correlate

Amazon SageMaker AI e Application Auto Scaling

Puoi scalare le varianti degli endpoint SageMaker AI, la concorrenza fornita per gli endpoint serverless e i componenti di inferenza utilizzando le policy di scalabilità di Target Tracking, le policy di scalabilità per fasi e la scalabilità pianificata.

Utilizza le seguenti informazioni per aiutarti a integrare l' SageMaker IA con Application Auto Scaling.

Ruolo collegato ai servizi creato per l'IA SageMaker

Il seguente ruolo collegato ai servizi viene creato automaticamente al Account AWS momento della registrazione delle risorse SageMaker AI come obiettivi scalabili con Application Auto Scaling. Questo ruolo consente ad Application Auto Scaling di eseguire le operazioni supportate all'interno dell'account. Per ulteriori informazioni, consulta Ruoli collegati ai servizi per Application Auto Scaling.

AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint

Principale del servizio utilizzato dal ruolo collegato ai servizi

Il ruolo collegato ai servizi nella sezione precedente può essere assunto solo dal principale del servizio autorizzato dalle relazioni di attendibilità definite per il ruolo. Il ruolo collegato ai servizi utilizzato da Application Auto Scaling concede l'accesso al seguente principale del servizio:

sagemaker.application-autoscaling.amazonaws.com

Registrazione delle varianti di endpoint SageMaker AI come obiettivi scalabili con Application Auto Scaling

Application Auto Scaling richiede un target scalabile prima di poter creare policy di scalabilità o azioni pianificate per un modello di SageMaker intelligenza artificiale (variante). Un obiettivo scalabile è una risorsa la cui dimensione può essere aumentata e ridotta orizzontalmente da Application Auto Scaling. Gli obiettivi scalabili sono identificati in modo univoco dalla combinazione di ID risorsa, dimensione scalabile e spazio dei nomi.

Se configuri la scalabilità automatica utilizzando la console SageMaker AI, l' SageMaker IA registra automaticamente un target scalabile per te.

Se desideri configurare la scalabilità automatica utilizzando la AWS CLI o una delle seguenti, puoi utilizzare AWS SDKs le seguenti opzioni:

AWS CLI:

Richiamate il register-scalable-targetcomando per una variante di prodotto. Nell'esempio seguente viene registrato il conteggio delle istanze desiderato per una variante prodotto denominata my-variant, in esecuzione sull'endpoint my-endpoint, con una capacità minima di un'istanza e una capacità massima di otto istanze.
```
aws application-autoscaling register-scalable-target \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:variant:DesiredInstanceCount \
  --resource-id endpoint/my-endpoint/variant/my-variant \
  --min-capacity 1 \
  --max-capacity 8
```
In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.
```
{
    "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
}
```
AWS SDK:

Chiama l'operazione RegisterScalableTarget e fornisci ResourceId, ScalableDimension, ServiceNamespace, MinCapacity e MaxCapacity come parametri.

Registrazione del provisioning simultaneo degli endpoint serverless come obiettivi dimensionabili con Application Auto Scaling

Inoltre, Application Auto Scaling richiede un obiettivo dimensionabile prima di poter creare policy di dimensionamento oppure operazioni pianificate per il provisioning simultaneo degli endpoint serverless.

Se configuri la scalabilità automatica utilizzando la console SageMaker AI, l' SageMaker IA registra automaticamente un target scalabile per te.

Altrimenti, utilizza uno dei seguenti metodi per registrare l'obiettivo dimensionabile:

AWS CLI:

Richiama il register-scalable-targetcomando per una variante di prodotto. Nell'esempio seguente viene registrato il provisioning simultaneo per una variante di prodotto denominata my-variant, in esecuzione sull'endpoint my-endpoint, con una capacità minima di uno e una capacità massima di dieci.


aws application-autoscaling register-scalable-target \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
  --resource-id endpoint/my-endpoint/variant/my-variant \
  --min-capacity 1 \
  --max-capacity 10

In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.


{
    "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
}

AWS SDK:

Chiama l'operazione RegisterScalableTarget e fornisci ResourceId, ScalableDimension, ServiceNamespace, MinCapacity e MaxCapacity come parametri.

Registrazione di componenti di inferenza come target scalabili con Application Auto Scaling

Application Auto Scaling richiede un target scalabile, prima di poter creare policy di dimensionamento o operazioni pianificate per i componenti di inferenza.

AWS CLI:

Chiama il register-scalable-targetcomando per un componente di inferenza. Nell'esempio seguente viene registrato il numero desiderato di copie per un componente di inferenza denominato my-inference-component, con una capacità minima di zero copie e una capacità massima di tre copie.


aws application-autoscaling register-scalable-target \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
  --resource-id inference-component/my-inference-component \
  --min-capacity 0 \
  --max-capacity 3

In caso di esito positivo, il comando restituisce l'ARN dell'obiettivo scalabile.


{
    "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
}

AWS SDK:

Chiama l'operazione RegisterScalableTarget e fornisci ResourceId, ScalableDimension, ServiceNamespace, MinCapacity e MaxCapacity come parametri.

Se hai appena iniziato a usare Application Auto Scaling, puoi trovare ulteriori informazioni utili sulla scalabilità delle tue risorse SageMaker AI nella Amazon SageMaker AI Developer Guide:

Nota

Nel 2023, l' SageMaker intelligenza artificiale ha introdotto nuove funzionalità di inferenza basate su endpoint di inferenza in tempo reale. Crei un endpoint SageMaker AI con una configurazione dell'endpoint che definisce il tipo di istanza e il numero iniziale di istanze per l'endpoint. Quindi, crea un componente di inferenza, che è un oggetto di hosting SageMaker AI che puoi utilizzare per distribuire un modello su un endpoint. Per informazioni sulla scalabilità dei componenti di inferenza, consulta Amazon SageMaker AI aggiunge nuove funzionalità di inferenza per aiutare a ridurre i costi e la latenza di implementazione del modello di base e riduce i costi di implementazione del modello del 50% in media utilizzando le funzionalità più recenti di Amazon SageMaker AI sul blog. AWS

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Amazon Neptune

Flotta Spot (Amazon EC2)