

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Automatische Skalierung der bereitgestellten Gleichzeitigkeit für einen Serverless Endpunkt
<a name="serverless-endpoints-autoscale"></a>

 Amazon SageMaker AI skaliert bei Bedarf automatisch Serverless Endpunkte ein oder aus. Für Serverless Endpunkte mit Provisioned Concurrency können Sie Application Auto Scaling verwenden, um die bereitgestellte Parallelität basierend auf Ihrem Verkehrsprofil nach oben oder unten zu skalieren und so die Kosten zu optimieren. 

 Im Folgenden sind die Voraussetzungen für die automatische Skalierung von Provisioned Concurrency auf Serverless Endpunkten aufgeführt: 
+ [Registrieren eines Modells](#serverless-endpoints-autoscale-register)
+ [Definieren einer Skalierungsrichtlinie](#serverless-endpoints-autoscale-define)
+ [Anwenden einer Skalierungsrichtlinie](#serverless-endpoints-autoscale-apply)

 Bevor Sie Autoscaling verwenden können, müssen Sie bereits ein Modell auf einem Serverless Endpunkt mit Provisioned Concurrency bereitgestellt haben. Eingesetzte Modelle werden als [Produktionsvarianten](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html) bezeichnet. Weitere Informationen zur Bereitstellung eines Modells auf einem Serverless Endpunkt mit Provisioned Concurrency finden Sie unter [Eine Endpunktkonfiguration erstellen](serverless-endpoints-create-config.md) und [Endpunkt herstellen](serverless-endpoints-create-endpoint.md). Um die Metriken und Zielwerte für eine Skalierungsrichtlinie festzulegen, müssen Sie eine Skalierungsrichtlinie konfigurieren. Weitere Informationen zum Definieren einer Skalierungsrichtlinie finden Sie unter [Definieren einer Skalierungsrichtlinie](#serverless-endpoints-autoscale-define). Registrieren Sie Ihr Modell und legen Sie eine Skalierungsrichtlinie fest, um die Skalierungsrichtlinie auf das registrierte Modell anzuwenden. Informationen zur Anwendung der Skalierungsrichtlinie finden Sie unter [Anwenden einer Skalierungsrichtlinie](#serverless-endpoints-autoscale-apply). 

 Einzelheiten zu anderen Voraussetzungen und Komponenten, die für Autoscaling verwendet werden, finden Sie im Abschnitt [Voraussetzungen für Auto Scaling](endpoint-auto-scaling-prerequisites.md) der [Dokumentation zu SageMaker AI Auto Scaling](endpoint-auto-scaling.md). 

## Registrieren eines Modells
<a name="serverless-endpoints-autoscale-register"></a>

 Um Autoscaling zu einem Serverless Endpunkt mit Provisioned Concurrency hinzuzufügen, müssen Sie zunächst Ihr Modell (Produktionsvariante) mithilfe AWS CLI unserer Application Auto Scaling API registrieren. 

### Registrieren eines Modells (AWS CLI)
<a name="serverless-endpoints-autoscale-register-cli"></a>

 Um Ihr Modell zu registrieren, verwenden Sie den Befehl `register-scalable-target` AWS CLI mit den folgenden Parametern: 
+  `--service-namespace` – Legen Sie diesen Wert auf `sagemaker` fest. 
+  `--resource-id`– Die Ressourcen-ID für das Modell (insbesondere die Produktionsvariante). Für diesen Parameter lautet der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Produktionsvariante. Zum Beispiel `endpoint/MyEndpoint/variant/MyVariant`. 
+  `--scalable-dimension` – Legen Sie diesen Wert auf `sagemaker:variant:DesiredProvisionedConcurrency` fest. 
+  `--min-capacity`– Die Mindestanzahl von Provisioned Concurrency für das Modell. Setzen Sie `--min-capacity` auf mindestens 1. Der Wert muss gleich oder kleiner sein als der für `--max-capacity` angegebene Wert. 
+  `--max-capacity`– Die maximale Anzahl an Provisioned Concurrency, die über Application Auto Scaling aktiviert werden soll. Auf mindestens 1 festgelegt`--max-capacity`. Er muss größer oder gleich dem für `--min-capacity` angegebenen Wert sein. 

 Das folgende Beispiel zeigt, wie man ein Modell mit dem Namen `MyVariant` registriert, das dynamisch skaliert wird und einen Wert von 1 bis 10 für die bereitgestellte Gleichzeitigkeit hat: 

```
aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --min-capacity 1 \
    --max-capacity 10
```

### Ein Modell registrieren (Application Auto Scaling Anwendungen-API)
<a name="serverless-endpoints-autoscale-register-api"></a>

 Um Ihr Modell zu registrieren, verwenden Sie die `RegisterScalableTarget` Application Auto Scaling Anwendungen-API-Aktion mit den folgenden Parametern: 
+  `ServiceNamespace` – Legen Sie diesen Wert auf `sagemaker` fest. 
+  `ResourceId`– Die Ressourcen-ID für das Modell (insbesondere die Produktionsvariante). Für diesen Parameter lautet der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Produktionsvariante. Zum Beispiel `endpoint/MyEndpoint/variant/MyVariant`. 
+  `ScalableDimension` – Legen Sie diesen Wert auf `sagemaker:variant:DesiredProvisionedConcurrency` fest. 
+  `MinCapacity`– Die Mindestanzahl von Provisioned Concurrency für das Modell. Setzen Sie `MinCapacity` auf mindestens 1. Der Wert muss gleich oder kleiner sein als der für `MaxCapacity` angegebene Wert. 
+  `MaxCapacity`– Die maximale Anzahl an Provisioned Concurrency, die über Application Auto Scaling aktiviert werden soll. Auf mindestens 1 festgelegt`MaxCapacity`. Er muss größer oder gleich dem für `MinCapacity` angegebenen Wert sein. 

 Das folgende Beispiel zeigt, wie man ein Modell mit dem Namen `MyVariant` registriert, das dynamisch skaliert wird und einen Wert von 1 bis 10 für die bereitgestellte Gleichzeitigkeit hat: 

```
POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.RegisterScalableTarget
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndPoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "MinCapacity": 1,
    "MaxCapacity": 10
}
```

## Definieren einer Skalierungsrichtlinie
<a name="serverless-endpoints-autoscale-define"></a>

 Um die Metriken und Zielwerte für eine Skalierungsrichtlinie festzulegen, können Sie eine Skalierungsrichtlinie mit Zielverfolgung konfigurieren. Definieren Sie die Skalierungsrichtlinie als JSON-Block in einer Textdatei. Sie können diese Textdatei dann verwenden, wenn Sie die AWS CLI oder die Applikation Auto Scaling API aufrufen. Um schnell eine Zielverfolgungs-Skalierungsrichtlinie für einen Serverless Endpunkt zu definieren, verwenden Sie die `SageMakerVariantProvisionedConcurrencyUtilization` vordefinierte Metrik. 

```
{
    "TargetValue": 0.5,
    "PredefinedMetricSpecification": 
    {
        "PredefinedMetricType": "SageMakerVariantProvisionedConcurrencyUtilization"
    },
    "ScaleOutCooldown": 1,
    "ScaleInCooldown": 1
}
```

## Anwenden einer Skalierungsrichtlinie
<a name="serverless-endpoints-autoscale-apply"></a>

 Nachdem Sie Ihr Modell registriert haben, können Sie mit Provisioned Concurrency eine Skalierungsrichtlinie auf Ihren Serverless Endpunkt anwenden. Sehen Sie [Anwendung einer Skalierungsrichtlinie zur Zielverfolgung](#serverless-endpoints-autoscale-apply-target), um eine von Ihnen definierte Zielverfolgungs-Skalierungsrichtlinie anzuwenden. Wenn der Datenverkehrsfluss zu Ihrem Serverless Endpunkt eine vorhersehbare Routine hat, sollten Sie Skalierungsaktionen zu bestimmten Zeiten planen, anstatt eine Skalierungsrichtlinie für die Zielverfolgung anzuwenden. Weitere Informationen zum Planen von Skalierungsaktionen finden Sie unter [Geplante Skalierung](#serverless-endpoints-autoscale-apply-scheduled). 

### Anwendung einer Skalierungsrichtlinie zur Zielverfolgung
<a name="serverless-endpoints-autoscale-apply-target"></a>

 Sie können die AWS-Managementkonsole, AWS CLI oder die Applikation Auto Scaling API verwenden, um eine Skalierungsrichtlinie für die Zielverfolgung auf Ihren Serverless-Endpunkt anzuwenden. 

#### Anwendung einer Zielverfolgungs-Skalierungsrichtlinie (AWS CLI)
<a name="serverless-endpoints-autoscale-apply-target-cli"></a>

 Um eine Skalierungsrichtlinie auf Ihr Modell anzuwenden, verwenden Sie den AWS CLI-Befehl `put-scaling-policy` mit den folgenden Parametern: 
+  `--policy-name` – Der Name der Skalierungsrichtlinie. 
+  `--policy-type` – Legen Sie diesen Wert auf fest `TargetTrackingScaling`. 
+  `--resource-id` – Die Ressourcenkennung für die Variante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Zum Beispiel `endpoint/MyEndpoint/variant/MyVariant`. 
+  `--service-namespace` – Legen Sie diesen Wert auf `sagemaker` fest. 
+  `--scalable-dimension` – Legen Sie diesen Wert auf `sagemaker:variant:DesiredProvisionedConcurrency` fest. 
+  `--target-tracking-scaling-policy-configuration` – Die für das Modell zu verwendende Konfiguration der Skalierungsrichtlinie für die Zielverfolgung. 

 Das folgende Beispiel zeigt, wie eine Zielverfolgungs-Skalierungsrichtlinie namens `MyScalingPolicy` auf ein Modell namens `MyVariant`. Die Richtlinienkonfiguration wird in einer Datei mit dem Namen `scaling-policy.json` gespeichert. 

```
aws application-autoscaling put-scaling-policy \
    --policy-name MyScalingPolicy \
    --policy-type TargetTrackingScaling \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --target-tracking-scaling-policy-configuration file://[file-localtion]/scaling-policy.json
```

#### Wenden Sie eine Skalierungsrichtlinie zur Zielverfolgung an (Application Auto Scaling API)
<a name="serverless-endpoints-autoscale-apply-target-api"></a>

 Um eine Skalierungsrichtlinie auf Ihr Modell anzuwenden, verwenden Sie die `PutScalingPolicy` Application Auto Scaling Anwendungen-API-Aktion mit den folgenden Parametern: 
+  `PolicyName` – Der Name der Skalierungsrichtlinie. 
+  `PolicyType` – Legen Sie diesen Wert auf fest `TargetTrackingScaling`. 
+  `ResourceId` – Die Ressourcenkennung für die Variante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Zum Beispiel `endpoint/MyEndpoint/variant/MyVariant`. 
+  `ServiceNamespace` – Legen Sie diesen Wert auf `sagemaker` fest. 
+  `ScalableDimension` – Legen Sie diesen Wert auf `sagemaker:variant:DesiredProvisionedConcurrency` fest. 
+  `TargetTrackingScalingPolicyConfiguration` – Die für das Modell zu verwendende Konfiguration der Skalierungsrichtlinie für die Zielverfolgung. 

 Das folgende Beispiel zeigt, wie eine Zielverfolgungs-Skalierungsrichtlinie namens `MyScalingPolicy` auf ein Modell namens `MyVariant`. Die Richtlinienkonfiguration wird in einer Datei mit dem Namen `scaling-policy.json` gespeichert. 

```
POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.PutScalingPolicy
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "PolicyName": "MyScalingPolicy",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndpoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "PolicyType": "TargetTrackingScaling",
    "TargetTrackingScalingPolicyConfiguration": 
    {
        "TargetValue": 0.5,
        "PredefinedMetricSpecification": 
        {
            "PredefinedMetricType": "SageMakerVariantProvisionedConcurrencyUtilization"
        }
    }
}
```

#### Anwendung einer Zielverfolgungs-Skalierungsrichtlinie (AWS-Managementkonsole)
<a name="serverless-endpoints-autoscale-apply-target-console"></a>

 Zur Anwendung einer Zielverfolgungs-Skalierungsrichtlinie mit dem AWS-Managementkonsole: 

1.  Melden Sie sich bei der [Konsole von Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/) an. 

1.  Wählen Sie im Navigationsbereich **Inferenz** aus. 

1.  Wählen Sie **Endpunkte** aus, um eine Liste all Ihrer Endpoints anzuzeigen. 

1.  Wählen Sie den Endpunkt aus, auf den Sie die Skalierungsrichtlinie anwenden möchten. Es wird eine Seite mit den Einstellungen des Endpunkts angezeigt, auf der die Modelle (Produktionsvariante) im **Abschnitt Endpunkt-Laufzeiteinstellungen** aufgeführt sind. 

1.  Wählen Sie die Produktionsvariante aus, auf die Sie die Skalierungsrichtlinie anwenden möchten, und wählen Sie **Auto Scaling konfigurieren**. Das Dialogfenster **Automatische Skalierung der Variante konfigurieren** wird angezeigt.   
![Screenshot des Dialogfelds Automatische Skalierung der Variante konfigurieren in der Konsole.](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/images/serverless-endpoints-variant-autoscaling.png)

1.  Geben Sie die minimalen und maximalen Werte für die bereitgestellte Parallelität in die Felder **Minimale bereitgestellte Parallelität** bzw. **Maximale bereitgestellte Parallelität** im Abschnitt **Automatische Skalierung der Variante** ein. Die minimale bereitgestellte Parallelität muss kleiner oder gleich der maximalen bereitgestellten Parallelität sein. 

1.  Geben Sie den Zielwert in das Feld **Zielwert** für die Zielmetrik, `SageMakerVariantProvisionedConcurrencyUtilization` ein. 

1.  (Optional) Geben Sie in den Feldern **Verkleinern bei Abkühlung** und **Vergrößern bei Abkühlung** Werte für die Abkühlung (in Sekunden) ein. 

1.  (Optional) Wählen Sie **Skalierung deaktivieren** aus, wenn Sie nicht möchten, dass Auto Scaling die Instance löscht, wenn der Traffic abnimmt. 

1.  Wählen Sie **Save (Speichern)**. 

### Geplante Skalierung
<a name="serverless-endpoints-autoscale-apply-scheduled"></a>

 Wenn der Datenverkehr zu Ihrem Serverless Endpunkt mit Provisioned Concurrency einem Routinemuster folgt, sollten Sie Skalierungsaktionen zu bestimmten Zeiten planen, um Provisioned Concurrency ab- oder aufskalieren. Sie können das AWS CLI oder das Application Auto Scaling verwenden, um Skalierungsaktionen zu planen. 

#### Geplante Skalierung (AWS CLI)
<a name="serverless-endpoints-autoscale-apply-scheduled-cli"></a>

 Um eine Skalierungsrichtlinie auf Ihr Modell anzuwenden, verwenden Sie den AWS CLI-Befehl `put-scheduled-action` mit den folgenden Parametern: 
+  `--schedule-action-name` – Der Name der Skalierungsrichtlinie. 
+  `--schedule`– Ein Cron-Ausdruck, der die Start- und Endzeiten der Skalierungsaktion mit einem wiederkehrenden Zeitplan angibt. 
+  `--resource-id` – Die Ressourcenkennung für die Variante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Zum Beispiel `endpoint/MyEndpoint/variant/MyVariant`. 
+  `--service-namespace` – Legen Sie diesen Wert auf `sagemaker` fest. 
+  `--scalable-dimension` – Legen Sie diesen Wert auf `sagemaker:variant:DesiredProvisionedConcurrency` fest. 
+  `--scalable-target-action`– Das Ziel der Skalierungsaktion. 

 Das folgende Beispiel zeigt, wie eine Skalierungsaktion namens `MyScalingAction` zu einem Modell namens `MyVariant` in einem wiederkehrenden Zeitplan hinzugefügt wird. Nach dem angegebenen Zeitplan (täglich um 12:15 Uhr UTC), wenn die aktuelle Provisioned Concurrency unter dem für angegebenen `MinCapacity` Wert liegt. Application Auto Scaling skaliert die bereitgestellte Parallelität auf den von `MinCapacity` angegebenen Wert. 

```
aws application-autoscaling put-scheduled-action \
    --scheduled-action-name 'MyScalingAction' \
    --schedule 'cron(15 12 * * ? *)' \
    --service-namespace sagemaker \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --scalable-target-action 'MinCapacity=10'
```

#### Geplante Skalierung (Application Auto Scaling API)
<a name="serverless-endpoints-autoscale-apply-scheduled-api"></a>

 Um eine Skalierungsrichtlinie auf Ihr Modell anzuwenden, verwenden Sie die `PutScheduledAction` Application Auto Scaling Anwendungen-API-Aktion mit den folgenden Parametern: 
+  `ScheduleActionName` – Der Name der Skalierungsaktion. 
+  `Schedule`– Ein Cron-Ausdruck, der die Start- und Endzeiten der Skalierungsaktion mit einem wiederkehrenden Zeitplan angibt. 
+  `ResourceId` – Die Ressourcenkennung für die Variante. Für diesen Parameter ist der Ressourcentyp `endpoint` und die eindeutige Kennung ist der Name der Variante. Zum Beispiel `endpoint/MyEndpoint/variant/MyVariant`. 
+  `ServiceNamespace` – Legen Sie diesen Wert auf `sagemaker` fest. 
+  `ScalableDimension` – Legen Sie diesen Wert auf `sagemaker:variant:DesiredProvisionedConcurrency` fest. 
+  `ScalableTargetAction`– Das Ziel der Skalierungsaktion. 

 Das folgende Beispiel zeigt, wie eine Skalierungsaktion namens `MyScalingAction` zu einem Modell namens `MyVariant` in einem wiederkehrenden Zeitplan hinzugefügt wird. Nach dem angegebenen Zeitplan (täglich um 12:15 Uhr UTC), wenn die aktuelle Provisioned Concurrency unter dem für angegebenen `MinCapacity` Wert liegt. Application Auto Scaling skaliert die bereitgestellte Parallelität auf den von `MinCapacity` angegebenen Wert. 

```
POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.PutScheduledAction
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "ScheduledActionName": "MyScalingAction",
    "Schedule": "cron(15 12 * * ? *)",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndpoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "ScalableTargetAction": "MinCapacity=10"
        }
    }
}
```