Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon SageMaker AI und Application Auto Scaling
Sie können SageMaker KI-Endpunktvarianten, bereitgestellte Parallelität für serverlose Endpunkte und Inferenzkomponenten mithilfe von Skalierungsrichtlinien für Zielverfolgung, schrittweiser Skalierung und geplanter Skalierung skalieren.
Verwenden Sie die folgenden Informationen, um Sie bei der Integration von SageMaker KI in Application Auto Scaling zu unterstützen.
Für SageMaker KI wurde eine serviceverknüpfte Rolle erstellt
Die folgende serviceverknüpfte Rolle wird automatisch in Ihrem erstellt, AWS-Konto wenn Sie SageMaker KI-Ressourcen als skalierbare Ziele mit Application Auto Scaling registrieren. Mit dieser Rolle kann Application Auto Scaling unterstützte Operationen innerhalb Ihres Kontos durchführen. Weitere Informationen finden Sie unter Servicegebundene Rollen für Application Auto Scaling.
-
AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint
Von der dienstgebundenen Rolle verwendeter Hauptdienst
Die im vorigen Abschnitt beschriebene dienstgebundene Rolle kann nur vom Hauptdienst übernommen werden, der durch die für die Rolle definierten vertrauenswürdigen Beziehungen autorisiert ist. Die von Application Auto Scaling verwendete dienstgebundene Rolle gewährt Zugriff auf den folgenden Hauptdienst:
-
sagemaker.application-autoscaling.amazonaws.com
Registrierung von SageMaker KI-Endpunktvarianten als skalierbare Ziele mit Application Auto Scaling
Application Auto Scaling erfordert ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für ein SageMaker KI-Modell (Variante) erstellen können. Ein skalierbares Ziel ist eine Ressource, die dank Application Auto Scaling auf- und abskaliert werden kann. Skalierbare Ziele werden eindeutig durch die Kombination von Ressourcen-ID, skalierbarer Dimension und Namespace identifiziert.
Wenn Sie Auto Scaling mithilfe der SageMaker KI-Konsole konfigurieren, registriert SageMaker KI automatisch ein skalierbares Ziel für Sie.
Wenn Sie Auto Scaling über die AWS CLI oder eine der folgenden Optionen konfigurieren möchten AWS SDKs, können Sie die folgenden Optionen verwenden:
-
AWS CLI:
Rufen Sie den register-scalable-target
Befehl für eine Produktvariante auf. Das folgende Beispiel registriert die gewünschte Anzahl von Instances für eine Produktvariante namens my-variant
, die auf dem Endpunktmy-endpoint
ausgeführt wird, mit einer Mindestkapazität von einer Instance und einer Höchstkapazität von acht Instances.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity8
Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Rufen Sie den Vorgang RegisterScalableTarget auf und geben Sie
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
, undMaxCapacity
als Parameter an.
Registrieren der bereitgestellten Gleichzeitigkeit von Serverless-Endpunkten als skalierbare Ziele mit Application Auto Scaling
Application Auto Scaling erfordert auch ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für die bereitgestellte Gleichzeitigkeit von Serverless-Endpunkten erstellen können.
Wenn Sie Auto Scaling mithilfe der SageMaker KI-Konsole konfigurieren, registriert SageMaker KI automatisch ein skalierbares Ziel für Sie.
Verwenden Sie andernfalls eine der folgenden Methoden, um das skalierbare Ziel zu registrieren:
-
AWS CLI:
Rufen Sie den register-scalable-target
Befehl für eine Produktvariante auf. Das folgende Beispiel registriert die bereitgestellte Gleichzeitigkeit für eine Produktvariante namens my-variant
, die auf dem Endpunktmy-endpoint
ausgeführt wird, mit einer Mindestkapazität von eins und einer Höchstkapazität von zehn.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity10
Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Rufen Sie den Vorgang RegisterScalableTarget auf und geben Sie
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
, undMaxCapacity
als Parameter an.
Registrieren von Inferenzkomponenten als skalierbare Ziele mit Application Auto Scaling
Application Auto Scaling erfordert ein skalierbares Ziel, bevor Sie Skalierungsrichtlinien oder geplante Aktionen für Inferenzkomponenten erstellen können.
-
AWS CLI:
Rufen Sie den register-scalable-target
Befehl für eine Inferenzkomponente auf. Im folgenden Beispiel wird die gewünschte Kopienanzahl für eine Inferenzkomponente namens my-inference-component
registriert, mit einer Mindestkapazität von null Kopien und einer Höchstkapazität von drei Kopien.aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:inference-component:DesiredCopyCount \ --resource-id inference-component/
my-inference-component
\ --min-capacity0
\ --max-capacity3
Bei Erfolg gibt dieser Befehl den ARN des skalierbaren Ziels zurück.
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS SDK:
Rufen Sie den Vorgang RegisterScalableTarget auf und geben Sie
ResourceId
,ScalableDimension
,ServiceNamespace
,MinCapacity
, undMaxCapacity
als Parameter an.
Zugehörige Ressourcen
Wenn Sie gerade erst mit Application Auto Scaling beginnen, finden Sie weitere nützliche Informationen zur Skalierung Ihrer SageMaker KI-Ressourcen im Amazon SageMaker AI Developer Guide:
Anmerkung
Im Jahr 2023 führte SageMaker KI neue Inferenzfunktionen ein, die auf Echtzeit-Inferenzendpunkten basieren. Sie erstellen einen SageMaker KI-Endpunkt mit einer Endpunktkonfiguration, die den Instanztyp und die anfängliche Anzahl der Instanzen für den Endpunkt definiert. Erstellen Sie anschließend eine Inferenzkomponente, bei der es sich um ein SageMaker KI-Hosting-Objekt handelt, mit dem Sie ein Modell auf einem Endpunkt bereitstellen können. Informationen zur Skalierung von Inferenzkomponenten finden Sie im Blog unter Amazon SageMaker AI fügt neue Inferenzfunktionen hinzu, um die Bereitstellungskosten und die Latenz