View a markdown version of this page

On-Demand-Inferenz - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

On-Demand-Inferenz

On-Demand-Inferenz bietet serverlosen Zugriff auf Amazon Nova-Modelle, ohne dass bereitgestellte Kapazität erforderlich ist. Dieser Modus wird automatisch skaliert, um Ihre Arbeitslast und die Gebühren je nach Nutzung zu bewältigen.

Vorteile

On-Demand-Inferenz bietet mehrere Vorteile:

  • Keine Kapazitätsplanung: Automatische Skalierung, um der Nachfrage gerecht zu werden

  • Bezahlung pro Nutzung: Wird nur für verarbeitete Tokens berechnet

  • Sofortige Verfügbarkeit: Keine Bereitstellungs- oder Aufwärmzeit erforderlich

  • Kostengünstig: Ideal für variable oder unvorhersehbare Workloads

Verwendung von On-Demand-Inferenz

On-Demand-Inferenz ist der Standardmodus für Amazon Nova-Modelle. Geben Sie bei API-Aufrufen einfach die Modell-ID an:

import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)

Preisgestaltung

On-Demand-Inferenzen werden auf der Grundlage der Anzahl der verarbeiteten Eingabe- und Ausgabetokens in Rechnung gestellt. Aktuelle Preisinformationen finden Sie unter Amazon Bedrock — Preise.

Kontingente und -Einschränkungen

On-Demand-Inferenz hat Standardkontingente, die je nach Modell und Region variieren. Verwenden Sie die Service Quota-Konsole, um Kontingenterhöhungen anzufordern.