Servicegebundene Rolle Dienstauftraggeber Registrierung von SageMaker KI-Endpunktvarianten als skalierbare Ziele mit Application Auto Scaling Registrieren der bereitgestellten Gleichzeitigkeit von Serverless-Endpunkten als skalierbare Ziele mit Application Auto Scaling Registrieren von Inferenzkomponenten als skalierbare Ziele mit Application Auto Scaling Zugehörige Ressourcen

Amazon SageMaker AI und Application Auto Scaling

Sie können SageMaker KI-Endpunktvarianten, bereitgestellte Parallelität für serverlose Endpunkte und Inferenzkomponenten mithilfe von Skalierungsrichtlinien für Zielverfolgung, schrittweiser Skalierung und geplanter Skalierung skalieren.

Verwenden Sie die folgenden Informationen, um Sie bei der Integration von SageMaker KI in Application Auto Scaling zu unterstützen.

Für SageMaker KI wurde eine serviceverknüpfte Rolle erstellt

Die folgende serviceverknüpfte Rolle wird automatisch in Ihrem erstellt, AWS-Konto wenn Sie SageMaker KI-Ressourcen als skalierbare Ziele mit Application Auto Scaling registrieren. Mit dieser Rolle kann Application Auto Scaling unterstützte Operationen innerhalb Ihres Kontos durchführen. Weitere Informationen finden Sie unter Servicegebundene Rollen für Application Auto Scaling.

AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint

Von der dienstgebundenen Rolle verwendeter Hauptdienst

Die im vorigen Abschnitt beschriebene dienstgebundene Rolle kann nur vom Hauptdienst übernommen werden, der durch die für die Rolle definierten vertrauenswürdigen Beziehungen autorisiert ist. Die von Application Auto Scaling verwendete dienstgebundene Rolle gewährt Zugriff auf den folgenden Hauptdienst:

sagemaker.application-autoscaling.amazonaws.com

Registrierung von SageMaker KI-Endpunktvarianten als skalierbare Ziele mit Application Auto Scaling

Application Auto Scaling erfordert ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für ein SageMaker KI-Modell (Variante) erstellen können. Ein skalierbares Ziel ist eine Ressource, die dank Application Auto Scaling auf- und abskaliert werden kann. Skalierbare Ziele werden eindeutig durch die Kombination von Ressourcen-ID, skalierbarer Dimension und Namespace identifiziert.

Wenn Sie Auto Scaling mithilfe der SageMaker KI-Konsole konfigurieren, registriert SageMaker KI automatisch ein skalierbares Ziel für Sie.

Wenn Sie Auto Scaling über die AWS CLI oder eine der folgenden Optionen konfigurieren möchten AWS SDKs, können Sie die folgenden Optionen verwenden:

AWS CLI:

Rufen Sie den register-scalable-targetBefehl für eine Produktvariante auf. Das folgende Beispiel registriert die gewünschte Anzahl von Instances für eine Produktvariante namens my-variant, die auf dem Endpunkt my-endpoint ausgeführt wird, mit einer Mindestkapazität von einer Instance und einer Höchstkapazität von acht Instances.
```
aws application-autoscaling register-scalable-target \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:variant:DesiredInstanceCount \
  --resource-id endpoint/my-endpoint/variant/my-variant \
  --min-capacity 1 \
  --max-capacity 8
```
Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.
```
{
    "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
}
```
AWS SDK:

Rufen Sie den Vorgang RegisterScalableTarget auf und geben Sie ResourceId, ScalableDimension, ServiceNamespace, MinCapacity, und MaxCapacity als Parameter an.

Registrieren der bereitgestellten Gleichzeitigkeit von Serverless-Endpunkten als skalierbare Ziele mit Application Auto Scaling

Application Auto Scaling erfordert auch ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für die bereitgestellte Gleichzeitigkeit von Serverless-Endpunkten erstellen können.

Wenn Sie Auto Scaling mithilfe der SageMaker KI-Konsole konfigurieren, registriert SageMaker KI automatisch ein skalierbares Ziel für Sie.

Verwenden Sie andernfalls eine der folgenden Methoden, um das skalierbare Ziel zu registrieren:

AWS CLI:

Rufen Sie den register-scalable-targetBefehl für eine Produktvariante auf. Das folgende Beispiel registriert die bereitgestellte Gleichzeitigkeit für eine Produktvariante namens my-variant, die auf dem Endpunkt my-endpoint ausgeführt wird, mit einer Mindestkapazität von eins und einer Höchstkapazität von zehn.


aws application-autoscaling register-scalable-target \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
  --resource-id endpoint/my-endpoint/variant/my-variant \
  --min-capacity 1 \
  --max-capacity 10

Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.


{
    "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
}

AWS SDK:

Rufen Sie den Vorgang RegisterScalableTarget auf und geben Sie ResourceId, ScalableDimension, ServiceNamespace, MinCapacity, und MaxCapacity als Parameter an.

Registrieren von Inferenzkomponenten als skalierbare Ziele mit Application Auto Scaling

Application Auto Scaling erfordert ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für Inferenzkomponenten erstellen können.

AWS CLI:

Rufen Sie den register-scalable-targetBefehl für eine Inferenzkomponente auf. Im folgenden Beispiel wird die gewünschte Kopienanzahl für eine Inferenzkomponente namens my-inference-component registriert, mit einer Mindestkapazität von null Kopien und einer Höchstkapazität von drei Kopien.


aws application-autoscaling register-scalable-target \
  --service-namespace sagemaker \
  --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
  --resource-id inference-component/my-inference-component \
  --min-capacity 0 \
  --max-capacity 3

Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.


{
    "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
}

AWS SDK:

Rufen Sie den Vorgang RegisterScalableTarget auf und geben Sie ResourceId, ScalableDimension, ServiceNamespace, MinCapacity, und MaxCapacity als Parameter an.

Wenn Sie gerade erst mit Application Auto Scaling beginnen, finden Sie weitere nützliche Informationen zur Skalierung Ihrer SageMaker KI-Ressourcen im Amazon SageMaker AI Developer Guide:

Anmerkung

Im Jahr 2023 führte SageMaker KI neue Inferenzfunktionen ein, die auf Echtzeit-Inferenzendpunkten basieren. Sie erstellen einen SageMaker KI-Endpunkt mit einer Endpunktkonfiguration, die den Instanztyp und die anfängliche Anzahl der Instanzen für den Endpunkt definiert. Erstellen Sie anschließend eine Inferenzkomponente, bei der es sich um ein SageMaker KI-Hosting-Objekt handelt, mit dem Sie ein Modell auf einem Endpunkt bereitstellen können. Informationen zur Skalierung von Inferenzkomponenten finden Sie im Blog unter Amazon SageMaker AI fügt neue Inferenzfunktionen hinzu, um die Bereitstellungskosten und die Latenz von Basismodellen zu reduzieren und die Kosten für die Modellbereitstellung mithilfe der neuesten Funktionen von Amazon SageMaker AI um durchschnittlich 50% zu reduzieren. AWS

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Amazon Neptune

Spot-Flotte (Amazon EC2)