Zeitplanbasierte Skalierung Minimale und maximale Skalierungsgrenzen Ruhephase Zugehörige Ressourcen

Überblick über Auto-Scaling-Richtlinien

Um Auto Scaling zu verwenden, definieren Sie eine Skalierungsrichtlinie, die die Anzahl der Instances für Ihre Produktionsvariante als Reaktion auf die tatsächlichen Workloads hinzufügt und entfernt.

Für die automatische Skalierung bei Änderungen der Arbeitslast stehen Ihnen zwei Optionen zur Verfügung: Richtlinien zur Zielverfolgung und schrittweisen Skalierung.

In den meisten Fällen empfehlen wir die Verwendung von Skalierungsrichtlinien für die Zielverfolgung. Bei der Zielverfolgung wählen Sie eine CloudWatch Amazon-Metrik und einen Zielwert aus. Auto Scaling erstellt und verwaltet die CloudWatch Alarme für die Skalierungsrichtlinie und berechnet die Skalierungsanpassung auf der Grundlage der Metrik und des Zielwerts. Die Richtlinie fügt die Anzahl der Instanzen hinzu oder entfernt sie, je nachdem, wie erforderlich, um die Metrik auf oder nahe dem angegebenen Zielwert zu halten. Hierbei kann z. B. eine Skalierungsrichtlinie, die die vorab definierte InvocationsPerInstance-Kennzahl mit einem Zielwert von 70 verwendet, InvocationsPerInstance auf oder fast auf 70 halten. Weitere Informationen finden Sie in den Skalierungsrichtlinien für die Ziel-Nachverfolgung im Benutzerhandbuch für Application Auto Scaling.

Sie können die schrittweise Skalierung verwenden, wenn Sie eine erweiterte Konfiguration benötigen, z. B. angeben, wie viele Instances unter welchen Bedingungen bereitgestellt werden sollen. Sie müssen beispielsweise Step Scaling verwenden, wenn Sie möchten, dass ein Endpunkt von null aktiven Instances aus horizontal skaliert. Einen Überblick über Step Scaling-Richtlinien und deren Funktionsweise finden Sie unter Step Scaling-Richtlinien im Application Auto Scaling Scaling-Benutzerhandbuch.

Zum Erstellen einer Skalierungsrichtlinie für die Ziel-Nachverfolgung geben Sie Folgendes an:

Metrik — Die zu verfolgende CloudWatch Metrik, z. B. die durchschnittliche Anzahl von Aufrufen pro Instance.
Zielwert — Der Zielwert für die Metrik, z. B. 70 Aufrufe pro Instance pro Minute.

Sie können Skalierungsrichtlinien zur Zielverfolgung mit vordefinierten oder benutzerdefinierten Metriken erstellen. Eine vordefinierte Metrik ist in einer Aufzählung definiert, sodass Sie sie anhand ihres Namens im Code angeben oder in der SageMaker AI-Konsole verwenden können. Alternativ können Sie entweder die AWS CLI oder die Application Auto Scaling-API verwenden, um eine Skalierungsrichtlinie für die Zielverfolgung anzuwenden, die auf einer vordefinierten oder benutzerdefinierten Metrik basiert.

Beachten Sie, dass Skalierungsaktivitäten mit Abklingzeiten zwischen ihnen ausgeführt werden, um schnelle Kapazitätsschwankungen zu vermeiden. Sie können die Ruhephasen für Ihre Richtlinie optional konfigurieren.

Weitere Informationen zu den wichtigsten Konzepten von Auto Scaling finden Sie im folgenden Abschnitt.

Zeitplanbasierte Skalierung

Sie können auch geplante Aktionen erstellen, um Skalierungsaktivitäten zu bestimmten Zeiten durchzuführen. Sie können geplante Aktionen erstellen, die nur einmal skalieren oder wiederholt geplant ausgeführt werden. Nach der Ausführung einer geplanten Aktion kann Ihre Skalierungsrichtlinie weiterhin Entscheidungen darüber treffen, ob bei Änderungen der Arbeitslast dynamisch skaliert werden soll. Die geplante Skalierung kann nur über die AWS CLI oder die Application Auto Scaling API verwaltet werden. Weitere Informationen finden Sie unter Geplante Skalierung im Benutzerhandbuch für Application Auto Scaling.

Minimale und maximale Skalierungsgrenzen

Bei der Konfiguration von Auto Scaling müssen Sie Ihre Skalierungsgrenzen angeben, bevor Sie eine Skalierungsrichtlinie erstellen. Sie legen die Grenzwerte für die Minimal- und Maximalwerte getrennt fest.

Der Mindestwert muss mindestens 1 sein und gleich oder kleiner als der für den Höchstwert angegebene Wert sein.

Der Höchstwert muss gleich oder größer als der für den Minimalwert angegebene Wert sein. SageMaker AI Auto Scaling erzwingt kein Limit für diesen Wert.

Um die Skalierungsgrenzen zu ermitteln, die Sie für den typischen Datenverkehr benötigen, testen Sie Ihre Auto Scaling-Konfiguration mit der erwarteten Datenverkehrsrate für Ihr Modell.

Wenn der Traffic einer Variante Null wird, skaliert SageMaker KI automatisch auf die angegebene Mindestanzahl von Instanzen. In diesem Fall gibt SageMaker KI Metriken mit einem Wert von Null aus.

Es gibt drei Optionen für die Angabe der Mindest- und Höchstkapazität:

Verwenden Sie die Konsole, um die Einstellungen Minimale Instanzanzahl und Maximale Instanzanzahl zu aktualisieren.
Verwenden Sie die --max-capacity Optionen AWS CLI und schließen Sie die --min-capacity und ein, wenn register-scalable-targetSie den Befehl ausführen.
Rufen Sie die RegisterScalableTargetAPI auf und geben Sie die MaxCapacity Parameter MinCapacity und an.

Tipp

Sie können manuell skalieren, indem Sie den Mindestwert erhöhen, oder manuell vergrößern, indem Sie den Maximalwert verringern.

Ruhephase

Eine Abklingzeit wird verwendet, um vor einer Überskalierung zu schützen, wenn Ihr Modell skaliert (Kapazität reduziert) oder verkleinert (Kapazität erhöht). Zu diesem Zweck werden nachfolgende Skalierungsaktivitäten verlangsamt, bis der Zeitraum abläuft. Insbesondere blockiert es das Löschen von Instanzen für Scale-In-Anfragen und schränkt die Erstellung von Instanzen für Scale-Out-Anfragen ein. Weitere Informationen finden Sie unter Definieren von Abklingzeiten im Application Auto Scaling Scaling-Benutzerhandbuch.

Sie konfigurieren die Abklingzeit in Ihrer Skalierungsrichtlinie.

Wenn Sie keine Scale-In- oder Scale-Out-Abklingzeit angeben, verwendet Ihre Skalierungsrichtlinie die Standardeinstellung, die jeweils 300 Sekunden beträgt.

Wenn Instances beim Testen Ihrer Skalierungskonfiguration zu schnell hinzugefügt oder entfernt werden, sollten Sie erwägen, diesen Wert zu erhöhen. Dieses Verhalten kann auftreten, wenn der Datenverkehr zu Ihrem Modell viele Spitzen aufweist oder wenn Sie mehrere Skalierungsrichtlinien für eine Variante definiert haben.

Wenn Instances nicht schnell genug hinzugefügt werden, um auf den erhöhten Datenverkehr zu antworten, dann sollten Sie diesen Wert verringern.

Weitere Informationen zur Konfiguration von Auto Scaling finden Sie in den folgenden Ressourcen:

Abschnitt application-autoscaling in der AWS CLI -Befehlsreferenz
API-Referenz zu Application Auto Scaling
Benutzerhandbuch zum Application Auto Scaling

Anmerkung

SageMaker KI hat kürzlich neue Inferenzfunktionen eingeführt, die auf Echtzeit-Inferenzendpunkten basieren. Sie erstellen einen SageMaker KI-Endpunkt mit einer Endpunktkonfiguration, die den Instanztyp und die anfängliche Anzahl der Instanzen für den Endpunkt definiert. Erstellen Sie anschließend eine Inferenzkomponente, bei der es sich um ein SageMaker KI-Hosting-Objekt handelt, mit dem Sie ein Modell auf einem Endpunkt bereitstellen können. Informationen zur Skalierung von Inferenzkomponenten finden Sie im Blog unter SageMaker KI fügt neue Inferenzfunktionen hinzu, um die Kosten und die Latenz von Basismodellen zu reduzieren und die Kosten für die Modellbereitstellung mithilfe der neuesten SageMaker KI-Funktionen um durchschnittlich 50% zu senken. AWS

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Auto Scaling

Voraussetzungen