Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
On-Demand-Inferenz
On-Demand-Inferenz bietet serverlosen Zugriff auf Amazon Nova-Modelle, ohne dass bereitgestellte Kapazität erforderlich ist. Dieser Modus wird automatisch skaliert, um Ihre Arbeitslast und die Gebühren je nach Nutzung zu bewältigen.
Vorteile
On-Demand-Inferenz bietet mehrere Vorteile:
-
Keine Kapazitätsplanung: Automatische Skalierung, um der Nachfrage gerecht zu werden
-
Bezahlung pro Nutzung: Wird nur für verarbeitete Tokens berechnet
-
Sofortige Verfügbarkeit: Keine Bereitstellungs- oder Aufwärmzeit erforderlich
-
Kostengünstig: Ideal für variable oder unvorhersehbare Workloads
Verwendung von On-Demand-Inferenz
On-Demand-Inferenz ist der Standardmodus für Amazon Nova-Modelle. Geben Sie bei API-Aufrufen einfach die Modell-ID an:
import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)
Preisgestaltung
On-Demand-Inferenzen werden auf der Grundlage der Anzahl der verarbeiteten Eingabe- und Ausgabetokens in Rechnung gestellt. Aktuelle Preisinformationen finden Sie unter Amazon Bedrock — Preise
Kontingente und -Einschränkungen
On-Demand-Inferenz hat Standardkontingente, die je nach Modell und Region variieren. Verwenden Sie die Service Quota-Konsole, um Kontingenterhöhungen