Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Kernschlussfolgerung
Inferenz ist der Prozess, bei dem eine Anfrage an ein Amazon Nova-Modell gesendet und eine generierte Antwort empfangen wird. Amazon Nova-Modelle unterstützen Inferenzen über zwei API-Optionen:
-
Converse API (Converse, ConverseStream): Bietet eine konsistente Schnittstelle für verschiedene Modelle, wodurch es einfacher wird, zwischen Modellen zu wechseln oder Anwendungen zu erstellen, die mit mehreren Modellen funktionieren. Für die meisten Anwendungsfälle empfohlen.
-
API aufrufen (InvokeModel, InvokeModelWithResponseStream): Anforderungs-Payloads sind speziell für das native Format jedes Modells strukturiert. Führt die Inferenz mithilfe der Eingabeaufforderung und der Inferenzparameter aus, die im Hauptteil der Anfrage bereitgestellt werden.
Beide APIs unterstützen dieselben Kernfunktionen, darunter:
-
Multi-turn-Konversationen
-
Multimodale Eingaben (Text, Bilder, Video, Audio)
-
Verwendung des Tools
-
Integritätsschutz
-
Streaming-Antworten
Die Anforderungsstruktur ist zwischen den beiden nahezu identisch und unterscheidet sich nur darin APIs, wie Bytedaten (Dokumente, Bilder, Video und Audio) kodiert werden. Für Modellanforderungsparameter, die nur für Amazon Nova-Modelle gelten, wie reasoningConfig undTopK, werden diese in einem zusätzlichen inferenceConfig Objekt innerhalb von platziert. additionalModelRequestFields Dies sind Parameter der obersten Ebene für und. InvokeModel InvokeModelWithResponseStream
Anmerkung
Unter Codebeispiele und Problembehandlung finden Sie eine Liste der Codebeispiele für Nova 2-Modelle.
Stellen Sie den modelId Wert auf einen der folgenden Werte ein, um Amazon Nova-Modelle zu verwenden:
Modell |
Modell-ID |
|---|---|
| Nova 2 Lite |
|
Nova 2 Sonic |
|
Nova Multimodale Einbettungen |
amazon.nova-2-1:0 multimodal-embeddings-v |
Wichtig: Timeout-Konfiguration
Wichtig
Die Bearbeitung von Amazon Nova-Inferenzanfragen kann bis zu 60 Minuten dauern. Konfigurieren Sie Ihre Client-Timeout-Einstellungen entsprechend:
Das folgende Beispiel ist Python-Code. Benutzer können in der Dokumentation zu ihrer bevorzugten SDK-Sprachversion in den API-Dokumenten des jeweiligen SDKS nachschauen.
from botocore.config import Config bedrock = boto3.client( 'bedrock-runtime', region_name='us-east-1', config=Config( read_timeout=3600 # 60 minutes ) )
Kernthemen der Inferenz
In diesem Abschnitt werden die folgenden Themen behandelt:
-
Verwendung der Converse API: Eine konsistente Schnittstelle, die Kompatibilität mit den meisten Bedrock-Modellen bietet
-
Verwendung der Aufruf-API: Eine Schnittstelle, die nur für Nova-Modelle verfügbar ist und nicht auf andere Bedrock-Modelle übertragbar ist
-
Streaming-Antworten: Generierung von Antworten in Echtzeit
-
Verwenden von Amazon Nova-Einbettungen: Funktionen zum Einbetten von Text
-
Inferenz auf Abruf: Inferenzmodell Pay-per-use