Amazon-Bedrock-Inferenz

Sobald Sie Ihr Amazon Nova-Modell trainiert und getestet haben, können Sie es auf Amazon Bedrock bereitstellen, um Inferenzen im Produktionsmaßstab zu erhalten. Der Bereitstellungsprozess umfasst die Erstellung eines Amazon Bedrock-Modells mit der CreateCustomModel API, den Export Ihrer Modellartefakte aus einem verwalteten Amazon S3 S3-Bucket in dieses Modell und die Konfiguration eines Endpunkts mit On-Demand-Inferenz oder bereitgestelltem Durchsatz, sobald das Modell AKTIV ist.

Nachdem Sie ein benutzerdefiniertes Modell erstellt haben SageMaker, können Sie es mithilfe der CreateCustomModel API vom SageMaker Treuhandkonto auf Amazon Bedrock bereitstellen, um Inferenz auszuführen. Sie können es dann verwenden CreateCustomModelDeployment , um einen OD-Inferenzendpunkt zu erstellen oder eine bereitgestellte Durchsatzinferenz für ein PEFT-Modell (Parameter Efficient Fine Tuned) einzurichten. Sie können die bereitgestellte Durchsatzinferenz für ein benutzerdefiniertes Full-Rank-Modell einrichten.

Sie können auch das Amazon Nova Forge SDK verwenden, um maßgeschneiderte Amazon Nova-Modelle bereitzustellen. Das Amazon Nova Forge SDK bietet eine optimierte Erfahrung beim Extrahieren der relevanten Informationen aus einem Schulungsjob oder einem S3-Modell-Checkpoint und deren Veröffentlichung in Amazon Bedrock. Weitere Informationen finden Sie unter Amazon Nova Forge SDK.

Ausführliche Schritte zur Einrichtung der Amazon Bedrock-Inferenz für ein benutzerdefiniertes Modell finden Sie unter Bereitstellen von benutzerdefinierten Amazon Nova-Modellen in Amazon Bedrock.

Der folgende Abschnitt enthält weitere Informationen zu On-Demand Inference on Custom Models.

On-demand Inferenz auf benutzerdefinierte Modelle

On-demand (OD) -Inferenz ermöglicht es Ihnen, Inferenzen für Ihre benutzerdefinierten Amazon Nova-Modelle auszuführen, ohne die bereitgestellten Durchsatzendpunkte aufrechtzuerhalten. Dies unterstützt Sie bei der Kostenoptimierung und ermöglicht eine effiziente Skalierung. Bei On-demand Inferenz werden Ihnen Gebühren auf der Grundlage der Nutzung berechnet, gemessen in Tokens, sowohl bei eingehender als auch bei ausgehender Nutzung.

Kompatibilitätsanforderungen

Es gelten die folgenden Kompatibilitätsanforderungen:

Die OD-Inferenz wird für Amazon Nova Pro, Lite und Micro Custom Understanding Modelle unterstützt. OD-Inferenz wird für Nova-Modelle zur benutzerdefinierten Inhaltsgenerierung nicht unterstützt.
OD-Inferenz wird für benutzerdefinierte Understanding-Modelle von Amazon Nova unterstützt, die nach dem 16. Juli 2025 trainiert wurden. Benutzerdefinierte Modelle, die vor dem 16. Juli 2025 trainiert wurden, sind nicht mit OD-Inferenz kompatibel.
Amazon-Bedrock-Anpassung: OD-Inferenz wird für Modelle unterstützt, die mit Amazon Bedrock angepasst wurden, sowie für Schülermodelle, die mit Amazon Bedrock aus einem Lehrermodell destilliert wurden.
SageMaker KI-Anpassung: Für in SageMaker KI angepasste Modelle wird die OD-Inferenz nur für Parameter-efficient fein abgestimmte (PEFT) Modelle unterstützt, wenn das Modell auf Amazon Bedrock gehostet wird. Dazu gehören Direkte Präferenzoptimierung und PEFT. Die OD-Inferenz wird für fein abgestimmte Modelle nicht unterstützt. Full-rank

Modelltraining und Inferenz

Wenn Sie nach dem 16. Juli 2025 ein neues benutzerdefiniertes Amazon Nova Pro-, Lite- oder Micro-Modell auf Amazon Bedrock oder SageMaker AI mit PEFT trainieren, ist das Modell automatisch sowohl mit bereitgestellten als auch mit On-Demand-Inferenzoptionen kompatibel. Sie können bei der Bereitstellung Ihres Modells Ihre bevorzugte Inferenzmethode auswählen.

Um die OD-Inferenz mit einem nach dem 16. Juli 2025 trainierten Modell zu verwenden, führen Sie bitte die folgenden Schritte aus:

Erstellen Sie einen neuen Feinabstimmungsauftrag entweder mit der Amazon Bedrock Customization API oder der SageMaker AI Customization API.
Stellen Sie das neu trainierte Modell mithilfe der CreateCustomModel API auf Amazon Bedrock bereit.
Stellen Sie es mithilfe der API für On-Demand-Inferenzen bereit. CustomModelDeployment

Ratenbegrenzungen

Die folgenden Begrenzungen für Anfragen pro Minute (RPM) und Token pro Minute (TPM) gelten für On-Demand-Inferenzanfragen:

Basismodell für benutzerdefiniertes Modell	Bereitstellung pro Minute pro benutzerdefiniertem Modell	TPM pro Bereitstellung eines benutzerdefinierten Modells
Nova 2 Lite	2.000	4.000.000

Weitere Informationen zu den für Amazon Nova verfügbaren Kontingenten finden Sie unter Kontingente für Amazon Nova.

Latenz

Es ist mit einem Unterschied in der End-to-End-Latenz (d. h. Time To First Token, TTFT) von 20 bis 55 % zwischen dem Aufruf des Basismodells und dem Adapter zu rechnen. Der genaue Latenzwert variiert je nach Modellgröße und entspricht den Branchenstandards.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Missbrauchserkennung für Amazon Nova Forge

Ein benutzerdefiniertes Modell für On-Demand-Inferenz bereitstellen