Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Nota
Il prompt caching di Amazon Bedrock è attualmente disponibile solo per un numero selezionato di clienti. Per ulteriori informazioni sulla partecipazione all'anteprima, consulta Amazon Bedrock prompt
Il prompt caching è una funzionalità opzionale che puoi utilizzare durante l'inferenza del modello in Amazon Bedrock per ridurre la latenza di risposta. Puoi aggiungere parti della conversazione a una cache in modo che il modello possa riutilizzare il contesto nella cache anziché elaborare completamente l'input e calcolare le risposte ogni volta.
La memorizzazione rapida nella cache può essere utile quando si hanno carichi di lavoro con contesti lunghi e ripetuti che vengono spesso riutilizzati per più query. Ad esempio, se disponi di un chatbot in cui gli utenti possono caricare documenti e porre domande su di essi, il modello può richiedere molto tempo per elaborare il documento ogni volta che l'utente fornisce un input. Con la memorizzazione rapida nella cache, è possibile memorizzare nella cache il documento nel contesto della conversazione per risposte più rapide.
Quando utilizzi il prompt caching, ti viene addebitata una tariffa ridotta per l'inferenza e una tariffa diversa per il numero di token letti e scritti nella cache. Per ulteriori informazioni, consulta la pagina Prezzi di Amazon Bedrock
Come funziona
Se scegli di utilizzare il prompt caching, Amazon Bedrock crea una cache composta da checkpoint della cache. Si tratta di checkpoint in cui viene memorizzato nella cache l'intero prefisso del prompt che porta a quel punto. Nelle richieste successive, il modello può recuperare queste informazioni memorizzate nella cache anziché elaborarle nuovamente, con tempi di risposta più rapidi e costi ridotti.
I checkpoint della cache hanno un numero minimo e massimo di token, a seconda del modello specifico che stai utilizzando. Puoi creare un checkpoint della cache solo se il prefisso totale del prompt soddisfa il numero minimo di token. Ad esempio, il modello Anthropic Claude 3.5 Sonnet v2 richiede 1.024 token per i checkpoint della cache. È possibile creare il primo checkpoint dopo la richiesta e le risposte del modello raggiungono i 1.024 token. Puoi creare un secondo checkpoint dopo che il totale raggiunge i 2.048 token. Se provi ad aggiungere un checkpoint della cache senza soddisfare il numero minimo di token, la tua richiesta di inferenza ha comunque esito positivo ma il checkpoint non viene aggiunto alla cache.
La cache ha un Time To Live (TTL) di cinque minuti, che si ripristina a ogni accesso riuscito alla cache. Durante questo periodo, il contesto nella cache viene preservato. Se non si verificano accessi alla cache all'interno della finestra TTL, la cache scade.
Se la cache scade, puoi riutilizzare il contesto precedentemente memorizzato nella cache fino a quel momento come primo checkpoint di cache di una nuova cache.
Puoi utilizzare il prompt caching ogni volta che ottieni l'inferenza del modello in Amazon Bedrock per i modelli supportati. La memorizzazione rapida nella cache è supportata dalle seguenti funzionalità di Amazon Bedrock:
- Converse e ConverseStream APIs
-
Puoi continuare una conversazione con un modello in cui specifichi i checkpoint della cache nelle tue istruzioni.
- InvokeModel e InvokeModelWithResponseStream APIs
-
È possibile inviare richieste a richiesta singola in cui è possibile abilitare la memorizzazione nella cache dei prompt e specificare i checkpoint della cache.
- Agenti Amazon Bedrock
-
Quando crei o aggiorni un agente, puoi scegliere di abilitare o disabilitare la memorizzazione dei prompt nella cache. Amazon Bedrock gestisce automaticamente il comportamento dei prompt caching e dei checkpoint per te.
Ti APIs offrono la massima flessibilità e il controllo granulare sulla cache dei prompt. Puoi impostare ogni singolo checkpoint della cache all'interno dei tuoi prompt. È possibile aggiungere alla cache creando più checkpoint della cache, fino al numero massimo di checkpoint della cache consentito per il modello specifico. Per ulteriori informazioni, consulta Modelli, regioni e limiti supportati.
Per utilizzare il prompt caching con altre funzionalità come Amazon Bedrock Agents, devi semplicemente abilitare il campo prompt caching quando crei o aggiorni il tuo agente. Quando abiliti il prompt caching, il comportamento di memorizzazione nella cache e i checkpoint della cache vengono gestiti automaticamente da Amazon Bedrock.
Modelli, regioni e limiti supportati
La tabella seguente elenca i valori minimi di token supportati Regioni AWS, il numero massimo di checkpoint della cache e i campi che consentono i checkpoint della cache per ogni modello supportato.
Nome modello | ID del modello | Regioni che supportano la memorizzazione rapida nella cache | Numero minimo di token per checkpoint della cache | Numero massimo di checkpoint della cache | Campi in cui è possibile aggiungere checkpoint della cache |
---|---|---|---|---|---|
Amazon Nova Micro versione 1 |
amazzone. nova-micro-v1:0 |
Stati Uniti orientali (Virginia settentrionale) US West (Oregon) |
1 |
1 |
|
Amazon Nova Lite versione 1 |
amazzone. nova-lite-v1:0 |
Stati Uniti orientali (Virginia settentrionale) US West (Oregon) |
1 |
1 |
|
Amazon Nova Pro versione 1 |
amazzone. nova-pro-v1:0 |
Stati Uniti orientali (Virginia settentrionale) US West (Oregon) |
1 |
1 |
|
Claude 3.5 Haiku |
anthropic.claude-3-5-haiku-20241022-v 1:0 |
Inferenza regolare: Stati Uniti occidentali (Oregon) Inferenza tra regioni:
|
2.048 |
4 |
|
Claude 3.5 Sonnet v2 |
anthropic.claude-3-5-sonnet-20241022-v 2:0 |
Inferenza regolare: Stati Uniti occidentali (Oregon) Inferenza tra regioni:
|
1,024 |
4 |
|
Nozioni di base
Le seguenti sezioni mostrano una breve panoramica su come utilizzare la funzionalità di prompt caching per ogni metodo di interazione con i modelli tramite Amazon Bedrock.
L'API Converse offre opzioni avanzate e flessibili per implementare il prompt caching nelle conversazioni a più turni. Per ulteriori informazioni sui requisiti di prompt per ogni modello, consulta la sezione precedente. Modelli, regioni e limiti supportati
Richiesta di esempio
Gli esempi seguenti mostrano un checkpoint della cache impostato nei tools
campimessages
,system
, o di una richiesta a Converse API. È possibile posizionare punti di controllo in una qualsiasi di queste posizioni per una determinata richiesta. Ad esempio, se si invia una richiesta al modello Claude 3.5 Sonnet v2, è possibile inserire due checkpoint nella cachemessages
, un checkpoint nella cache e uno in entrata. system
tools
Per informazioni più dettagliate ed esempi di strutturazione e invio Converse Richieste API, vediEffettuare una conversazione con Converse Operazioni API.
La risposta del modello di Converse L'API include due nuovi campi specifici per la memorizzazione nella cache dei prompt. CacheWriteInputTokens
I valori CacheReadInputTokens
and indicano quanti token sono stati letti dalla cache e quanti token sono stati scritti nella cache a causa della richiesta precedente. Questi sono i valori che ti vengono addebitati da Amazon Bedrock, a una tariffa inferiore al costo dell'inferenza completa del modello.
La memorizzazione nella cache dei prompt è abilitata per impostazione predefinita quando si chiama l'InvokeModelAPI. È possibile impostare i checkpoint della cache in qualsiasi punto del corpo della richiesta, in modo analogo all'esempio precedente per Converse API.
L'esempio seguente mostra come strutturare il corpo della InvokeModel richiesta per Anthropic Claude 3.5 Sonnet modello v2. Tieni presente che il formato e i campi esatti del corpo delle InvokeModel richieste possono variare a seconda del modello scelto. Per visualizzare il formato e il contenuto dei corpi di richiesta e risposta per i diversi modelli, vedereParametri della richiesta di inferenza e campi di risposta per i modelli di base.
body={
"anthropic_version": "bedrock-2023-05-31",
"system":"Reply concisely",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe the best way to learn programming."
},
{
"type": "text",
"text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
"cache_control": {
"type": "ephemeral"
}
}
]
}
],
"max_tokens": 2048,
"temperature": 0.5,
"top_p": 0.8,
"stop_sequences": [
"stop"
],
"top_k": 250
}
Per ulteriori informazioni sull'invio di una InvokeModel richiesta, vedereInvia una sola richiesta con InvokeModel.
In un ambiente di chat nella console Amazon Bedrock, puoi attivare l'opzione di memorizzazione rapida nella cache e Amazon Bedrock crea automaticamente i checkpoint della cache per te.
Segui le istruzioni Genera risposte nella console utilizzando i parchi giochi per iniziare a creare suggerimenti in un parco giochi Amazon Bedrock. Per i modelli supportati, la memorizzazione dei prompt nella cache viene attivata automaticamente nel parco giochi. Tuttavia, in caso contrario, procedi come segue per attivare la memorizzazione dei prompt nella cache:
-
Nel pannello laterale sinistro, apri il menu Configurazioni.
-
Attiva l'interruttore Prompt caching.
-
Esegui le tue istruzioni.
Dopo che le risposte combinate di input e modello hanno raggiunto il numero minimo richiesto di token per un checkpoint (che varia in base al modello), Amazon Bedrock crea automaticamente il primo checkpoint della cache per te. Man mano che continui a chattare, ogni successivo raggiungimento del numero minimo di token crea un nuovo checkpoint, fino al numero massimo di checkpoint consentito per il modello. Puoi visualizzare i checkpoint della cache in qualsiasi momento selezionando Visualizza i checkpoint della cache accanto all'interruttore Prompt caching, come mostrato nella schermata seguente.

Puoi vedere quanti token vengono letti e scritti nella cache a seguito di ogni interazione con il modello visualizzando il pop-up Caching metrics () nelle risposte del playground.

Se disattivi l'opzione di memorizzazione dei prompt nella cache mentre sei nel bel mezzo di una conversazione, puoi continuare a chattare con la modella.