Wichtig: Timeout-Konfiguration Kernthemen der Inferenz

Kernschlussfolgerung

Inferenz ist der Prozess, bei dem eine Anfrage an ein Amazon Nova-Modell gesendet und eine generierte Antwort empfangen wird. Amazon Nova-Modelle unterstützen Inferenzen über zwei API-Optionen:

Converse API (Converse, ConverseStream): Bietet eine konsistente Schnittstelle für verschiedene Modelle, wodurch es einfacher wird, zwischen Modellen zu wechseln oder Anwendungen zu erstellen, die mit mehreren Modellen funktionieren. Für die meisten Anwendungsfälle empfohlen.
API aufrufen (InvokeModel, InvokeModelWithResponseStream): Anforderungs-Payloads sind speziell für das native Format jedes Modells strukturiert. Führt die Inferenz mithilfe der Eingabeaufforderung und der Inferenzparameter aus, die im Hauptteil der Anfrage bereitgestellt werden.

Beide APIs unterstützen dieselben Kernfunktionen, darunter:

Multi-turn-Konversationen
Multimodale Eingaben (Text, Bilder, Video, Audio)
Verwendung des Tools
Integritätsschutz
Streaming-Antworten

Die Anforderungsstruktur ist zwischen den beiden nahezu identisch und unterscheidet sich nur darin APIs, wie Bytedaten (Dokumente, Bilder, Video und Audio) kodiert werden. Für Modellanforderungsparameter, die nur für Amazon Nova-Modelle gelten, wie reasoningConfig undTopK, werden diese in einem zusätzlichen inferenceConfig Objekt innerhalb von platziert. additionalModelRequestFields Dies sind Parameter der obersten Ebene für und. InvokeModel InvokeModelWithResponseStream

Anmerkung

Unter Codebeispiele und Problembehandlung finden Sie eine Liste der Codebeispiele für Nova 2-Modelle.

Stellen Sie den modelId Wert auf einen der folgenden Werte ein, um Amazon Nova-Modelle zu verwenden:

Modell	Modell-ID
Nova 2 Lite	global.amazon.nova-2-lite-v 1:0 us.amazon.nova-2-lite-v 1:0
Nova 2 Sonic	global.amazon.nova-2-sonic-v 1:0 us.amazon.nova-2-sonic-v 1:0
Nova Multimodale Einbettungen	amazon.nova-2-1:0 multimodal-embeddings-v

Wichtig: Timeout-Konfiguration

Wichtig

Die Bearbeitung von Amazon Nova-Inferenzanfragen kann bis zu 60 Minuten dauern. Konfigurieren Sie Ihre Client-Timeout-Einstellungen entsprechend:

Das folgende Beispiel ist Python-Code. Benutzer können in der Dokumentation zu ihrer bevorzugten SDK-Sprachversion in den API-Dokumenten des jeweiligen SDKS nachschauen.


from botocore.config import Config

bedrock = boto3.client(
    'bedrock-runtime',
    region_name='us-east-1',
    config=Config(
        read_timeout=3600  # 60 minutes
    )
)

Kernthemen der Inferenz

In diesem Abschnitt werden die folgenden Themen behandelt:

Verwendung der Converse API: Eine konsistente Schnittstelle, die Kompatibilität mit den meisten Bedrock-Modellen bietet
Verwendung der Aufruf-API: Eine Schnittstelle, die nur für Nova-Modelle verfügbar ist und nicht auf andere Bedrock-Modelle übertragbar ist
Streaming-Antworten: Generierung von Antworten in Echtzeit
Verwenden von Amazon Nova-Einbettungen: Funktionen zum Einbetten von Text
Inferenz auf Abruf: Inferenzmodell Pay-per-use

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erste Schritte mit der -API

Verwendung der Converse-API