Promptes Caching für schnellere Modellinferenz

Fokusmodus

Promptes Caching für schnellere Modellinferenz - Amazon Bedrock

Funktionsweise Unterstützte Modelle, Regionen und Beschränkungen Erste Schritte

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anmerkung

Das Amazon Bedrock Prompt Caching ist derzeit nur für eine bestimmte Anzahl von Kunden verfügbar. Weitere Informationen zur Teilnahme an der Vorschauversion finden Sie unter Amazon Bedrock Prompt-Caching.

Prompt Caching ist eine optionale Funktion, die Sie beim Abrufen von Modellinferenzen in Amazon Bedrock verwenden können, um die Antwortlatenz zu reduzieren. Sie können Teile Ihrer Konversation zu einem Cache hinzufügen, sodass das Modell den Kontext im Cache wiederverwenden kann, anstatt die Eingabe jedes Mal vollständig zu verarbeiten und die Antworten zu berechnen.

Sofortiges Caching kann hilfreich sein, wenn Sie Workloads mit langen und sich wiederholenden Kontexten haben, die häufig für mehrere Abfragen wiederverwendet werden. Wenn Sie beispielsweise über einen Chatbot verfügen, in dem Benutzer Dokumente hochladen und Fragen zu ihnen stellen können, kann es für das Modell zeitaufwändig sein, das Dokument jedes Mal zu verarbeiten, wenn der Benutzer eine Eingabe macht. Mit dem Prompt-Caching können Sie das Dokument im Kontext der Konversation zwischenspeichern, um schnellere Antworten zu erhalten.

Wenn Sie Prompt Caching verwenden, wird Ihnen ein reduzierter Tarif für Inferenz und ein anderer Tarif für die Anzahl der Token, die aus dem Cache gelesen und in den Cache geschrieben werden, berechnet. Weitere Informationen finden Sie auf der Amazon Bedrock-Preisseite.

Funktionsweise

Wenn Sie sich für das Prompt-Caching entscheiden, erstellt Amazon Bedrock einen Cache, der aus Cache-Checkpoints besteht. Dies sind Checkpoints, an denen das gesamte Präfix der Eingabeaufforderung, die zu diesem Punkt geführt hat, zwischengespeichert wird. Bei nachfolgenden Anfragen kann das Modell diese zwischengespeicherten Informationen abrufen, anstatt sie erneut zu verarbeiten, was zu schnelleren Reaktionszeiten und geringeren Kosten führt.

Cache-Checkpoints haben eine Mindest- und Höchstanzahl von Tokens, abhängig vom jeweiligen Modell, das Sie verwenden. Sie können nur dann einen Cache-Checkpoint erstellen, wenn Ihr gesamtes Prompt-Präfix der Mindestanzahl an Tokens entspricht. Für das Modell Anthropic Claude 3.5 Sonnet v2 sind beispielsweise 1.024 Token für Cache-Checkpoints erforderlich. Sie können Ihren ersten Checkpoint nach Ihrer Aufforderung erstellen und die Antworten des Modells erreichen 1.024 Token. Sie können einen zweiten Checkpoint erstellen, wenn die Gesamtzahl 2.048 Token erreicht hat. Wenn Sie versuchen, einen Cache-Checkpoint hinzuzufügen, ohne die Mindestanzahl an Tokens zu erreichen, ist Ihre Inferenzanforderung trotzdem erfolgreich, aber der Checkpoint wird nicht zum Cache hinzugefügt.

Der Cache hat eine Gültigkeitsdauer von fünf Minuten (Time To Live, TTL), die bei jedem erfolgreichen Cache-Treffer zurückgesetzt wird. Während dieses Zeitraums bleibt der Kontext im Cache erhalten. Wenn innerhalb des TTL-Fensters keine Cache-Treffer auftreten, läuft Ihr Cache ab.

Wenn Ihr Cache abläuft, können Sie den zuvor zwischengespeicherten Kontext bis zu diesem Zeitpunkt als ersten Cache-Checkpoint eines neuen Caches wiederverwenden.

Sie können das Prompt-Caching jederzeit verwenden, wenn Sie Modellinferenzen in Amazon Bedrock für unterstützte Modelle erhalten. Promptes Caching wird von den folgenden Amazon Bedrock-Funktionen unterstützt:

Converse und ConverseStream APIs: Sie können ein Gespräch mit einem Modell führen, bei dem Sie in Ihren Eingabeaufforderungen Cache-Checkpoints angeben.
InvokeModel und InvokeModelWithResponseStream APIs: Sie können Single-Prompt-Anfragen einreichen, in denen Sie das Prompt-Caching aktivieren und Ihre Cache-Checkpoints angeben.
Agenten von Amazon Bedrock: Wenn Sie einen Agenten erstellen oder aktualisieren, können Sie wählen, ob Sie das Zwischenspeichern von Eingabeaufforderungen aktivieren oder deaktivieren möchten. Amazon Bedrock kümmert sich automatisch um das Prompt-Caching und das Checkpoint-Verhalten für Sie.

Sie APIs bieten Ihnen die größte Flexibilität und detaillierte Kontrolle über den Prompt-Cache. Sie können jeden einzelnen Cache-Checkpoint in Ihren Eingabeaufforderungen festlegen. Sie können den Cache erweitern, indem Sie weitere Cache-Checkpoints erstellen, und zwar bis zur maximalen Anzahl von Cache-Checkpoints, die für das jeweilige Modell zulässig sind. Weitere Informationen finden Sie unter Unterstützte Modelle, Regionen und Beschränkungen.

Um das Prompt-Caching mit anderen Funktionen wie Amazon Bedrock Agents zu verwenden, müssen Sie lediglich das Feld Prompt-Caching aktivieren, wenn Sie Ihren Agenten erstellen oder aktualisieren. Wenn Sie das Prompt-Caching aktivieren, werden das Caching-Verhalten und die Cache-Checkpoints automatisch von Amazon Bedrock für Sie übernommen.

Unterstützte Modelle, Regionen und Beschränkungen

In der folgenden Tabelle sind die unterstützten Werte AWS-Regionen, die Token-Mindestwerte, die maximale Anzahl von Cache-Checkpoints und die Felder aufgeführt, die Cache-Checkpoints für jedes unterstützte Modell zulassen.

Modellname	Modell-ID	Regionen, die Sofort-Caching unterstützen	Mindestanzahl von Token pro Cache-Checkpoint	Maximale Anzahl von Cache-Checkpoints	Felder, in denen Sie Cache-Checkpoints hinzufügen können
Amazon Nova Micro v1	Amazonas. nova-micro-v1:0	USA Ost (Nord-Virginia) USA West (Oregon)	1	1	`system`
Amazon Nova Lite Version 1	Amazonas. nova-lite-v1:0	USA Ost (Nord-Virginia) USA West (Oregon)	1	1	`system`
Amazon Nova Pro v1	Amazonas. nova-pro-v1:0	USA Ost (Nord-Virginia) USA West (Oregon)	1	1	`system`
Claude 3,5 Haiku	anthropic.claude-3-5-haiku-20241022-v 1:0	Reguläre Schlussfolgerung: USA West (Oregon) Regionsübergreifende Inferenz: USA Ost (Nord-Virginia) USA West (Oregon)	2 048	4	`system`, `messages` und `tools`
Claude 3.5 Sonett v2	anthropic.claude-3-5-Sonett 20241022-v 2:0	Reguläre Schlussfolgerung: USA West (Oregon) Regionsübergreifende Inferenz: USA Ost (Nord-Virginia) USA West (Oregon)	1,024	4	`system`, `messages` und `tools`

Erste Schritte

Die folgenden Abschnitte geben Ihnen einen kurzen Überblick darüber, wie Sie die Prompt-Caching-Funktion für jede Methode der Interaktion mit Modellen über Amazon Bedrock verwenden können.

Die Converse-API bietet erweiterte und flexible Optionen für die Implementierung von Prompt-Caching in Multi-Turn-Konversationen. Weitere Informationen zu den Anforderungen an die Eingabeaufforderung für jedes Modell finden Sie im vorherigen Abschnitt. Unterstützte Modelle, Regionen und Beschränkungen

Beispielanforderung

Die folgenden Beispiele zeigen einen Cache-Checkpointmessages, der in den tools Feldernsystem, oder einer Anfrage an die Converse API. Sie können an jedem dieser Orte Checkpoints für eine bestimmte Anfrage platzieren. Wenn Sie beispielsweise eine Anfrage an das Modell Claude 3.5 Sonnet v2 senden, könnten Sie zwei Cache-Checkpoints platzierenmessages, einen Cache-Checkpoint in und einen insystem. tools Für detailliertere Informationen und Beispiele zum Strukturieren und Senden Converse API-Anfragen finden Sie unterFühren Sie ein Gespräch mit dem Converse API-Operationen.

messages checkpoints

In diesem Beispiel liefert das erste image Feld ein Bild für das Modell, und das zweite text Feld fordert das Modell auf, das Bild zu analysieren. Solange die Anzahl der Tokens vor dem content Objekt die Mindestanzahl cachePoint an Tokens für das Modell erreicht, wird ein Cache-Checkpoint erstellt.


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

In diesem Beispiel geben Sie Ihre Systemaufforderung in das text Feld ein. Anschließend können Sie ein cachePoint Feld hinzufügen, um die Systemaufforderung zwischenzuspeichern.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints

In diesem Beispiel geben Sie Ihre Werkzeugdefinition in das toolSpec Feld ein. (Alternativ können Sie ein Werkzeug aufrufen, das Sie zuvor definiert haben. Weitere Informationen finden Sie unterRufen Sie ein Tool mit dem Converse API.) Anschließend können Sie ein cachePoint Feld hinzufügen, um das Werkzeug zwischenzuspeichern.


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

Die Modellantwort von Converse Die API enthält zwei neue Felder, die speziell für das Zwischenspeichern von Eingabeaufforderungen bestimmt sind. Die CacheWriteInputTokens Werte CacheReadInputTokens und geben an, wie viele Token aus dem Cache gelesen wurden und wie viele Token aufgrund Ihrer vorherigen Anfrage in den Cache geschrieben wurden. Dies sind Werte, die Ihnen von Amazon Bedrock in Rechnung gestellt werden, und zwar zu einem Preis, der unter den Kosten für die vollständige Modellinferenz liegt.

Converse API

Beispielanforderung

messages checkpoints


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

In diesem Beispiel geben Sie Ihre Systemaufforderung in das text Feld ein. Anschließend können Sie ein cachePoint Feld hinzufügen, um die Systemaufforderung zwischenzuspeichern.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

anchor anchor anchor


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

Prompt-Caching ist standardmäßig aktiviert, wenn Sie die InvokeModelAPI aufrufen. Sie können Cache-Checkpoints an jeder beliebigen Stelle in Ihrem Anfragetext festlegen, ähnlich wie im vorherigen Beispiel für Converse API.

Das folgende Beispiel zeigt, wie Sie den Hauptteil Ihrer InvokeModel Anfrage für die strukturieren Anthropic Claude 3.5 Sonnet v2-Modell. Beachten Sie, dass das genaue Format und die Felder des Hauptteils für InvokeModel Anfragen je nach ausgewähltem Modell variieren können. Format und Inhalt der Anfrage- und Antworttexte für verschiedene Modelle finden Sie unterInferenzanforderungsparameter und Antwortfelder für Foundation-Modelle.


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Weitere Informationen zum Senden einer InvokeModel Anfrage finden Sie unterSenden Sie eine einzelne Aufforderung mit InvokeModel.

InvokeModel API


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Weitere Informationen zum Senden einer InvokeModel Anfrage finden Sie unterSenden Sie eine einzelne Aufforderung mit InvokeModel.

In einem Chat-Spielplatz in der Amazon Bedrock-Konsole können Sie die Option zum Zwischenspeichern von Eingabeaufforderungen aktivieren, sodass Amazon Bedrock automatisch Cache-Checkpoints für Sie erstellt.

Folgen Sie den Anweisungen unterGenerieren Sie Antworten in der Konsole mithilfe von Playgrounds, um mit den Eingabeaufforderungen auf einem Amazon Bedrock-Spielplatz zu beginnen. Bei unterstützten Modellen wird das Zwischenspeichern von Eingabeaufforderungen auf dem Playground automatisch aktiviert. Ist dies jedoch nicht der Fall, gehen Sie wie folgt vor, um das Zwischenspeichern der Eingabeaufforderung zu aktivieren:

Öffnen Sie in der linken Seitenleiste das Konfigurationsmenü.
Schalten Sie den Schalter Prompt-Caching ein.
Führen Sie Ihre Eingabeaufforderungen aus.

Nachdem Ihre kombinierten Eingabe- und Modellantworten die für einen Checkpoint erforderliche Mindestanzahl an Tokens erreicht haben (die je nach Modell unterschiedlich ist), erstellt Amazon Bedrock automatisch den ersten Cache-Checkpoint für Sie. Während Sie weiter chatten, wird bei jedem weiteren Erreichen der Mindestanzahl an Tokens ein neuer Checkpoint erstellt, bis zu der für das Modell maximal zulässigen Anzahl von Checkpoints. Sie können sich Ihre Cache-Checkpoints jederzeit ansehen, indem Sie neben der Option Zwischenspeicherung bei Aufforderung die Option Cache-Checkpoints anzeigen auswählen, wie im folgenden Screenshot gezeigt.

UI-Schalter für schnelles Zwischenspeichern in einem Amazon Bedrock-Textspielplatz.

Sie können sehen, wie viele Token aufgrund jeder Interaktion mit dem Modell aus dem Cache gelesen und in den Cache geschrieben werden, indem Sie das Popup-Fenster mit den Caching-Metriken ( ) in den Playground-Antworten aufrufen.

Feld für Caching-Metriken, in dem die Anzahl der Token angezeigt wird, die aus dem Cache gelesen und in den Cache geschrieben wurden.

Wenn Sie während einer Konversation die Option zum Zwischenspeichern der Eingabeaufforderung deaktivieren, können Sie den Chat mit dem Model fortsetzen.

Spielplatz

Öffnen Sie in der linken Seitenleiste das Konfigurationsmenü.
Schalten Sie den Schalter Prompt-Caching ein.
Führen Sie Ihre Eingabeaufforderungen aus.

Wenn Sie während einer Konversation die Option zum Zwischenspeichern der Eingabeaufforderung deaktivieren, können Sie den Chat mit dem Model fortsetzen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden Sie ein computergestütztes Tool, um eine Modellantwort abzuschließen

Verarbeiten Sie mehrere Eingabeaufforderungen mit Batch-Inferenz

Auf dieser Seite

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

Promptes Caching für schnellere Modellinferenz

Anmerkung

Funktionsweise

Unterstützte Modelle, Regionen und Beschränkungen

Erste Schritte

Converse API

InvokeModel API

Spielplatz

Auf dieser Seite

Hat Ihnen diese Seite geholfen?

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?

UI-Schalter für schnelles Zwischenspeichern in einem Amazon Bedrock-Textspielplatz.

Feld für Caching-Metriken, in dem die Anzahl der Token angezeigt wird, die aus dem Cache gelesen und in den Cache geschrieben wurden.