Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anmerkung
Das Amazon Bedrock Prompt Caching ist derzeit nur für eine bestimmte Anzahl von Kunden verfügbar. Weitere Informationen zur Teilnahme an der Vorschauversion finden Sie unter Amazon Bedrock Prompt-Caching
Prompt Caching ist eine optionale Funktion, die Sie beim Abrufen von Modellinferenzen in Amazon Bedrock verwenden können, um die Antwortlatenz zu reduzieren. Sie können Teile Ihrer Konversation zu einem Cache hinzufügen, sodass das Modell den Kontext im Cache wiederverwenden kann, anstatt die Eingabe jedes Mal vollständig zu verarbeiten und die Antworten zu berechnen.
Sofortiges Caching kann hilfreich sein, wenn Sie Workloads mit langen und sich wiederholenden Kontexten haben, die häufig für mehrere Abfragen wiederverwendet werden. Wenn Sie beispielsweise über einen Chatbot verfügen, in dem Benutzer Dokumente hochladen und Fragen zu ihnen stellen können, kann es für das Modell zeitaufwändig sein, das Dokument jedes Mal zu verarbeiten, wenn der Benutzer eine Eingabe macht. Mit dem Prompt-Caching können Sie das Dokument im Kontext der Konversation zwischenspeichern, um schnellere Antworten zu erhalten.
Wenn Sie Prompt Caching verwenden, wird Ihnen ein reduzierter Tarif für Inferenz und ein anderer Tarif für die Anzahl der Token, die aus dem Cache gelesen und in den Cache geschrieben werden, berechnet. Weitere Informationen finden Sie auf der Amazon Bedrock-Preisseite
Funktionsweise
Wenn Sie sich für das Prompt-Caching entscheiden, erstellt Amazon Bedrock einen Cache, der aus Cache-Checkpoints besteht. Dies sind Checkpoints, an denen das gesamte Präfix der Eingabeaufforderung, die zu diesem Punkt geführt hat, zwischengespeichert wird. Bei nachfolgenden Anfragen kann das Modell diese zwischengespeicherten Informationen abrufen, anstatt sie erneut zu verarbeiten, was zu schnelleren Reaktionszeiten und geringeren Kosten führt.
Cache-Checkpoints haben eine Mindest- und Höchstanzahl von Tokens, abhängig vom jeweiligen Modell, das Sie verwenden. Sie können nur dann einen Cache-Checkpoint erstellen, wenn Ihr gesamtes Prompt-Präfix der Mindestanzahl an Tokens entspricht. Für das Modell Anthropic Claude 3.5 Sonnet v2 sind beispielsweise 1.024 Token für Cache-Checkpoints erforderlich. Sie können Ihren ersten Checkpoint nach Ihrer Aufforderung erstellen und die Antworten des Modells erreichen 1.024 Token. Sie können einen zweiten Checkpoint erstellen, wenn die Gesamtzahl 2.048 Token erreicht hat. Wenn Sie versuchen, einen Cache-Checkpoint hinzuzufügen, ohne die Mindestanzahl an Tokens zu erreichen, ist Ihre Inferenzanforderung trotzdem erfolgreich, aber der Checkpoint wird nicht zum Cache hinzugefügt.
Der Cache hat eine Gültigkeitsdauer von fünf Minuten (Time To Live, TTL), die bei jedem erfolgreichen Cache-Treffer zurückgesetzt wird. Während dieses Zeitraums bleibt der Kontext im Cache erhalten. Wenn innerhalb des TTL-Fensters keine Cache-Treffer auftreten, läuft Ihr Cache ab.
Wenn Ihr Cache abläuft, können Sie den zuvor zwischengespeicherten Kontext bis zu diesem Zeitpunkt als ersten Cache-Checkpoint eines neuen Caches wiederverwenden.
Sie können das Prompt-Caching jederzeit verwenden, wenn Sie Modellinferenzen in Amazon Bedrock für unterstützte Modelle erhalten. Promptes Caching wird von den folgenden Amazon Bedrock-Funktionen unterstützt:
- Converse und ConverseStream APIs
-
Sie können ein Gespräch mit einem Modell führen, bei dem Sie in Ihren Eingabeaufforderungen Cache-Checkpoints angeben.
- InvokeModel und InvokeModelWithResponseStream APIs
-
Sie können Single-Prompt-Anfragen einreichen, in denen Sie das Prompt-Caching aktivieren und Ihre Cache-Checkpoints angeben.
- Agenten von Amazon Bedrock
-
Wenn Sie einen Agenten erstellen oder aktualisieren, können Sie wählen, ob Sie das Zwischenspeichern von Eingabeaufforderungen aktivieren oder deaktivieren möchten. Amazon Bedrock kümmert sich automatisch um das Prompt-Caching und das Checkpoint-Verhalten für Sie.
Sie APIs bieten Ihnen die größte Flexibilität und detaillierte Kontrolle über den Prompt-Cache. Sie können jeden einzelnen Cache-Checkpoint in Ihren Eingabeaufforderungen festlegen. Sie können den Cache erweitern, indem Sie weitere Cache-Checkpoints erstellen, und zwar bis zur maximalen Anzahl von Cache-Checkpoints, die für das jeweilige Modell zulässig sind. Weitere Informationen finden Sie unter Unterstützte Modelle, Regionen und Beschränkungen.
Um das Prompt-Caching mit anderen Funktionen wie Amazon Bedrock Agents zu verwenden, müssen Sie lediglich das Feld Prompt-Caching aktivieren, wenn Sie Ihren Agenten erstellen oder aktualisieren. Wenn Sie das Prompt-Caching aktivieren, werden das Caching-Verhalten und die Cache-Checkpoints automatisch von Amazon Bedrock für Sie übernommen.
Unterstützte Modelle, Regionen und Beschränkungen
In der folgenden Tabelle sind die unterstützten Werte AWS-Regionen, die Token-Mindestwerte, die maximale Anzahl von Cache-Checkpoints und die Felder aufgeführt, die Cache-Checkpoints für jedes unterstützte Modell zulassen.
Modellname | Modell-ID | Regionen, die Sofort-Caching unterstützen | Mindestanzahl von Token pro Cache-Checkpoint | Maximale Anzahl von Cache-Checkpoints | Felder, in denen Sie Cache-Checkpoints hinzufügen können |
---|---|---|---|---|---|
Amazon Nova Micro v1 |
Amazonas. nova-micro-v1:0 |
USA Ost (Nord-Virginia) USA West (Oregon) |
1 |
1 |
|
Amazon Nova Lite Version 1 |
Amazonas. nova-lite-v1:0 |
USA Ost (Nord-Virginia) USA West (Oregon) |
1 |
1 |
|
Amazon Nova Pro v1 |
Amazonas. nova-pro-v1:0 |
USA Ost (Nord-Virginia) USA West (Oregon) |
1 |
1 |
|
Claude 3,5 Haiku |
anthropic.claude-3-5-haiku-20241022-v 1:0 |
Reguläre Schlussfolgerung: USA West (Oregon) Regionsübergreifende Inferenz:
|
2 048 |
4 |
|
Claude 3.5 Sonett v2 |
anthropic.claude-3-5-Sonett 20241022-v 2:0 |
Reguläre Schlussfolgerung: USA West (Oregon) Regionsübergreifende Inferenz:
|
1,024 |
4 |
|
Erste Schritte
Die folgenden Abschnitte geben Ihnen einen kurzen Überblick darüber, wie Sie die Prompt-Caching-Funktion für jede Methode der Interaktion mit Modellen über Amazon Bedrock verwenden können.
Die Converse-API bietet erweiterte und flexible Optionen für die Implementierung von Prompt-Caching in Multi-Turn-Konversationen. Weitere Informationen zu den Anforderungen an die Eingabeaufforderung für jedes Modell finden Sie im vorherigen Abschnitt. Unterstützte Modelle, Regionen und Beschränkungen
Beispielanforderung
Die folgenden Beispiele zeigen einen Cache-Checkpointmessages
, der in den tools
Feldernsystem
, oder einer Anfrage an die Converse API. Sie können an jedem dieser Orte Checkpoints für eine bestimmte Anfrage platzieren. Wenn Sie beispielsweise eine Anfrage an das Modell Claude 3.5 Sonnet v2 senden, könnten Sie zwei Cache-Checkpoints platzierenmessages
, einen Cache-Checkpoint in und einen insystem
. tools
Für detailliertere Informationen und Beispiele zum Strukturieren und Senden Converse API-Anfragen finden Sie unterFühren Sie ein Gespräch mit dem Converse API-Operationen.
Die Modellantwort von Converse Die API enthält zwei neue Felder, die speziell für das Zwischenspeichern von Eingabeaufforderungen bestimmt sind. Die CacheWriteInputTokens
Werte CacheReadInputTokens
und geben an, wie viele Token aus dem Cache gelesen wurden und wie viele Token aufgrund Ihrer vorherigen Anfrage in den Cache geschrieben wurden. Dies sind Werte, die Ihnen von Amazon Bedrock in Rechnung gestellt werden, und zwar zu einem Preis, der unter den Kosten für die vollständige Modellinferenz liegt.
Prompt-Caching ist standardmäßig aktiviert, wenn Sie die InvokeModelAPI aufrufen. Sie können Cache-Checkpoints an jeder beliebigen Stelle in Ihrem Anfragetext festlegen, ähnlich wie im vorherigen Beispiel für Converse API.
Das folgende Beispiel zeigt, wie Sie den Hauptteil Ihrer InvokeModel Anfrage für die strukturieren Anthropic Claude 3.5 Sonnet v2-Modell. Beachten Sie, dass das genaue Format und die Felder des Hauptteils für InvokeModel Anfragen je nach ausgewähltem Modell variieren können. Format und Inhalt der Anfrage- und Antworttexte für verschiedene Modelle finden Sie unterInferenzanforderungsparameter und Antwortfelder für Foundation-Modelle.
body={
"anthropic_version": "bedrock-2023-05-31",
"system":"Reply concisely",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe the best way to learn programming."
},
{
"type": "text",
"text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
"cache_control": {
"type": "ephemeral"
}
}
]
}
],
"max_tokens": 2048,
"temperature": 0.5,
"top_p": 0.8,
"stop_sequences": [
"stop"
],
"top_k": 250
}
Weitere Informationen zum Senden einer InvokeModel Anfrage finden Sie unterSenden Sie eine einzelne Aufforderung mit InvokeModel.
In einem Chat-Spielplatz in der Amazon Bedrock-Konsole können Sie die Option zum Zwischenspeichern von Eingabeaufforderungen aktivieren, sodass Amazon Bedrock automatisch Cache-Checkpoints für Sie erstellt.
Folgen Sie den Anweisungen unterGenerieren Sie Antworten in der Konsole mithilfe von Playgrounds, um mit den Eingabeaufforderungen auf einem Amazon Bedrock-Spielplatz zu beginnen. Bei unterstützten Modellen wird das Zwischenspeichern von Eingabeaufforderungen auf dem Playground automatisch aktiviert. Ist dies jedoch nicht der Fall, gehen Sie wie folgt vor, um das Zwischenspeichern der Eingabeaufforderung zu aktivieren:
-
Öffnen Sie in der linken Seitenleiste das Konfigurationsmenü.
-
Schalten Sie den Schalter Prompt-Caching ein.
-
Führen Sie Ihre Eingabeaufforderungen aus.
Nachdem Ihre kombinierten Eingabe- und Modellantworten die für einen Checkpoint erforderliche Mindestanzahl an Tokens erreicht haben (die je nach Modell unterschiedlich ist), erstellt Amazon Bedrock automatisch den ersten Cache-Checkpoint für Sie. Während Sie weiter chatten, wird bei jedem weiteren Erreichen der Mindestanzahl an Tokens ein neuer Checkpoint erstellt, bis zu der für das Modell maximal zulässigen Anzahl von Checkpoints. Sie können sich Ihre Cache-Checkpoints jederzeit ansehen, indem Sie neben der Option Zwischenspeicherung bei Aufforderung die Option Cache-Checkpoints anzeigen auswählen, wie im folgenden Screenshot gezeigt.

Sie können sehen, wie viele Token aufgrund jeder Interaktion mit dem Modell aus dem Cache gelesen und in den Cache geschrieben werden, indem Sie das Popup-Fenster mit den Caching-Metriken (
) in den Playground-Antworten aufrufen.

Wenn Sie während einer Konversation die Option zum Zwischenspeichern der Eingabeaufforderung deaktivieren, können Sie den Chat mit dem Model fortsetzen.