Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Optimieren Sie die Modellinferenz für die Latenz

Fokusmodus
Optimieren Sie die Modellinferenz für die Latenz - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anmerkung

Die Funktion „Latenzoptimierte Inferenz“ befindet sich in der Vorschauversion für Amazon Bedrock und kann sich ändern.

Die latenzoptimierte Inferenz für Basismodelle Amazon Bedrock bietet schnellere Reaktionszeiten und eine verbesserte Reaktionsfähigkeit für KI-Anwendungen. Die optimierten Versionen von Amazon Nova Pro, das Haiku-Modell Claude 3.5 von Anthropic und die Modelle Llama 3.1 405B und 70B von Meta bieten eine deutlich reduzierte Latenz, ohne die Genauigkeit zu beeinträchtigen.

Für den Zugriff auf die Funktion zur Latenzoptimierung sind keine zusätzlichen Einstellungen oder Modellfeinabstimmungen erforderlich, sodass bestehende Anwendungen sofort verbessert und schnellere Reaktionszeiten erzielt werden können. Sie können den Parameter „Latency“ auf „optimiert“ setzen, während Sie die Amazon Bedrock Runtime-API aufrufen. Wenn Sie „Standard“ als Aufrufoption wählen, werden Ihre Anfragen per Standard-Inferenz bearbeitet. Standardmäßig werden alle Anfragen über „Standard“ weitergeleitet.

“performanceConfig” : { “latency” : “standard | optimized” }

Sobald Sie das Nutzungskontingent für die Latenzoptimierung für ein Modell erreicht haben, werden wir versuchen, die Anfrage mit der Standardlatenz zu bearbeiten. In solchen Fällen wird die Anfrage mit Standard-Latenzraten berechnet. Die Latenzkonfiguration für eine bearbeitete Anfrage ist in der API-Antwort und in den AWS CloudTrail Protokollen sichtbar. Sie können Metriken für latenzoptimierte Anfragen auch in den Amazon CloudWatch Protokollen unter „Model-ID+Latenzoptimierung“ einsehen.

Latenzoptimierte Inferenz ist für Metas Llama 3.1 70B und 405B sowie für Claude 3.5 Haiku von Anthropic in den Regionen USA Ost (Ohio) und USA West (Oregon) per regionsübergreifender Inferenz verfügbar.

Latenzoptimierte Inferenz ist verfügbar für Amazon Nova Pro in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio) und USA West (Oregon) mithilfe regionsübergreifender Inferenz.

Weitere Informationen zu den Preisen finden Sie auf der Seite mit den Preisen.

Anmerkung

Die latenzoptimierte Inferenz für Llama 3.1 405B unterstützt derzeit Anfragen mit einer Gesamtzahl von Eingabe- und Ausgabetokens von bis zu 11.000. Bei Anfragen mit einer größeren Tokenanzahl greifen wir auf den Standardmodus zurück.

Anbieter Modell Regionen, die das Inferenzprofil unterstützen
Amazon Nova Pro

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct

us-east-2

Meta Llama 3.1 70B Instruct

us-east-2

us-west-2

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.