

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# On-Demand-Inferenz
<a name="on-demand-inference"></a>

On-Demand-Inferenz bietet serverlosen Zugriff auf Amazon Nova-Modelle, ohne dass bereitgestellte Kapazität erforderlich ist. Dieser Modus wird automatisch skaliert, um Ihre Arbeitslast und die Gebühren je nach Nutzung zu bewältigen.

## Vorteile
<a name="on-demand-benefits"></a>

On-Demand-Inferenz bietet mehrere Vorteile:
+ **Keine Kapazitätsplanung:** Automatische Skalierung, um der Nachfrage gerecht zu werden
+ **Bezahlung pro Nutzung:** Wird nur für verarbeitete Tokens berechnet
+ **Sofortige Verfügbarkeit:** Keine Bereitstellungs- oder Aufwärmzeit erforderlich
+ **Kostengünstig:** Ideal für variable oder unvorhersehbare Workloads

## Verwendung von On-Demand-Inferenz
<a name="on-demand-usage"></a>

On-Demand-Inferenz ist der Standardmodus für Amazon Nova-Modelle. Geben Sie bei API-Aufrufen einfach die Modell-ID an:

```
import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

response = bedrock.converse(
    modelId='us.amazon.nova-2-lite-v1:0',
    messages=[
        {
            'role': 'user',
            'content': [{'text': 'Hello, Nova!'}]
        }
    ]
)

# Print the response text
content_list = response["output"]["message"]["content"]
text = next((item["text"] for item in content_list if "text" in item), None)
if text is not None:
    print(text)
```

## Preisgestaltung
<a name="on-demand-pricing"></a>

On-Demand-Inferenzen werden auf der Grundlage der Anzahl der verarbeiteten Eingabe- und Ausgabetokens in Rechnung gestellt. Aktuelle Preisinformationen finden Sie unter [Amazon Bedrock — Preise](https://aws.amazon.com/bedrock/pricing/).

## Kontingente und -Einschränkungen
<a name="on-demand-limits"></a>

On-Demand-Inferenz hat Standardkontingente, die je nach Modell und Region variieren. Verwenden Sie die [Service Quota-Konsole, um Kontingenterhöhungen](https://console.aws.amazon.com/servicequotas/) anzufordern.