Vorteile Verwendung von On-Demand-Inferenz Preisgestaltung Kontingente und -Einschränkungen

On-Demand-Inferenz

On-Demand-Inferenz bietet serverlosen Zugriff auf Amazon Nova-Modelle, ohne dass bereitgestellte Kapazität erforderlich ist. Dieser Modus wird automatisch skaliert, um Ihre Arbeitslast und die Gebühren je nach Nutzung zu bewältigen.

Vorteile

On-Demand-Inferenz bietet mehrere Vorteile:

Keine Kapazitätsplanung: Automatische Skalierung, um der Nachfrage gerecht zu werden
Bezahlung pro Nutzung: Wird nur für verarbeitete Tokens berechnet
Sofortige Verfügbarkeit: Keine Bereitstellungs- oder Aufwärmzeit erforderlich
Kostengünstig: Ideal für variable oder unvorhersehbare Workloads

Verwendung von On-Demand-Inferenz

On-Demand-Inferenz ist der Standardmodus für Amazon Nova-Modelle. Geben Sie bei API-Aufrufen einfach die Modell-ID an:


import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

response = bedrock.converse(
    modelId='us.amazon.nova-2-lite-v1:0',
    messages=[
        {
            'role': 'user',
            'content': [{'text': 'Hello, Nova!'}]
        }
    ]
)

# Print the response text
content_list = response["output"]["message"]["content"]
text = next((item["text"] for item in content_list if "text" in item), None)
if text is not None:
    print(text)

Preisgestaltung

On-Demand-Inferenzen werden auf der Grundlage der Anzahl der verarbeiteten Eingabe- und Ausgabetokens in Rechnung gestellt. Aktuelle Preisinformationen finden Sie unter Amazon Bedrock — Preise.

Kontingente und -Einschränkungen

On-Demand-Inferenz hat Standardkontingente, die je nach Modell und Region variieren. Verwenden Sie die Service Quota-Konsole, um Kontingenterhöhungen anzufordern.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden von Amazon Nova-Einbettungen

Nutzung der Nova-Funktionen