Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Memorizzazione rapida nella cache per un'inferenza più rapida del modello

Modalità Focus
Memorizzazione rapida nella cache per un'inferenza più rapida del modello - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Nota

Il prompt caching di Amazon Bedrock è attualmente disponibile solo per un numero selezionato di clienti. Per ulteriori informazioni sulla partecipazione all'anteprima, consulta Amazon Bedrock prompt caching.

Il prompt caching è una funzionalità opzionale che puoi utilizzare durante l'inferenza del modello in Amazon Bedrock per ridurre la latenza di risposta. Puoi aggiungere parti della conversazione a una cache in modo che il modello possa riutilizzare il contesto nella cache anziché elaborare completamente l'input e calcolare le risposte ogni volta.

La memorizzazione rapida nella cache può essere utile quando si hanno carichi di lavoro con contesti lunghi e ripetuti che vengono spesso riutilizzati per più query. Ad esempio, se disponi di un chatbot in cui gli utenti possono caricare documenti e porre domande su di essi, il modello può richiedere molto tempo per elaborare il documento ogni volta che l'utente fornisce un input. Con la memorizzazione rapida nella cache, è possibile memorizzare nella cache il documento nel contesto della conversazione per risposte più rapide.

Quando utilizzi il prompt caching, ti viene addebitata una tariffa ridotta per l'inferenza e una tariffa diversa per il numero di token letti e scritti nella cache. Per ulteriori informazioni, consulta la pagina Prezzi di Amazon Bedrock.

Come funziona

Se scegli di utilizzare il prompt caching, Amazon Bedrock crea una cache composta da checkpoint della cache. Si tratta di checkpoint in cui viene memorizzato nella cache l'intero prefisso del prompt che porta a quel punto. Nelle richieste successive, il modello può recuperare queste informazioni memorizzate nella cache anziché elaborarle nuovamente, con tempi di risposta più rapidi e costi ridotti.

I checkpoint della cache hanno un numero minimo e massimo di token, a seconda del modello specifico che stai utilizzando. Puoi creare un checkpoint della cache solo se il prefisso totale del prompt soddisfa il numero minimo di token. Ad esempio, il modello Anthropic Claude 3.5 Sonnet v2 richiede 1.024 token per i checkpoint della cache. È possibile creare il primo checkpoint dopo la richiesta e le risposte del modello raggiungono i 1.024 token. Puoi creare un secondo checkpoint dopo che il totale raggiunge i 2.048 token. Se provi ad aggiungere un checkpoint della cache senza soddisfare il numero minimo di token, la tua richiesta di inferenza ha comunque esito positivo ma il checkpoint non viene aggiunto alla cache.

La cache ha un Time To Live (TTL) di cinque minuti, che si ripristina a ogni accesso riuscito alla cache. Durante questo periodo, il contesto nella cache viene preservato. Se non si verificano accessi alla cache all'interno della finestra TTL, la cache scade.

Se la cache scade, puoi riutilizzare il contesto precedentemente memorizzato nella cache fino a quel momento come primo checkpoint di cache di una nuova cache.

Puoi utilizzare il prompt caching ogni volta che ottieni l'inferenza del modello in Amazon Bedrock per i modelli supportati. La memorizzazione rapida nella cache è supportata dalle seguenti funzionalità di Amazon Bedrock:

Converse e ConverseStream APIs

Puoi continuare una conversazione con un modello in cui specifichi i checkpoint della cache nelle tue istruzioni.

InvokeModel e InvokeModelWithResponseStream APIs

È possibile inviare richieste a richiesta singola in cui è possibile abilitare la memorizzazione nella cache dei prompt e specificare i checkpoint della cache.

Agenti Amazon Bedrock

Quando crei o aggiorni un agente, puoi scegliere di abilitare o disabilitare la memorizzazione dei prompt nella cache. Amazon Bedrock gestisce automaticamente il comportamento dei prompt caching e dei checkpoint per te.

Ti APIs offrono la massima flessibilità e il controllo granulare sulla cache dei prompt. Puoi impostare ogni singolo checkpoint della cache all'interno dei tuoi prompt. È possibile aggiungere alla cache creando più checkpoint della cache, fino al numero massimo di checkpoint della cache consentito per il modello specifico. Per ulteriori informazioni, consulta Modelli, regioni e limiti supportati.

Per utilizzare il prompt caching con altre funzionalità come Amazon Bedrock Agents, devi semplicemente abilitare il campo prompt caching quando crei o aggiorni il tuo agente. Quando abiliti il prompt caching, il comportamento di memorizzazione nella cache e i checkpoint della cache vengono gestiti automaticamente da Amazon Bedrock.

Modelli, regioni e limiti supportati

La tabella seguente elenca i valori minimi di token supportati Regioni AWS, il numero massimo di checkpoint della cache e i campi che consentono i checkpoint della cache per ogni modello supportato.

Nome modello ID del modello Regioni che supportano la memorizzazione rapida nella cache Numero minimo di token per checkpoint della cache Numero massimo di checkpoint della cache Campi in cui è possibile aggiungere checkpoint della cache

Amazon Nova Micro versione 1

amazzone. nova-micro-v1:0

Stati Uniti orientali (Virginia settentrionale)

US West (Oregon)

1

1

system

Amazon Nova Lite versione 1

amazzone. nova-lite-v1:0

Stati Uniti orientali (Virginia settentrionale)

US West (Oregon)

1

1

system

Amazon Nova Pro versione 1

amazzone. nova-pro-v1:0

Stati Uniti orientali (Virginia settentrionale)

US West (Oregon)

1

1

system

Claude 3.5 Haiku

anthropic.claude-3-5-haiku-20241022-v 1:0

Inferenza regolare: Stati Uniti occidentali (Oregon)

Inferenza tra regioni:

  • Stati Uniti orientali (Virginia settentrionale)

  • US West (Oregon)

2.048

4

system, messages e tools

Claude 3.5 Sonnet v2

anthropic.claude-3-5-sonnet-20241022-v 2:0

Inferenza regolare: Stati Uniti occidentali (Oregon)

Inferenza tra regioni:

  • Stati Uniti orientali (Virginia settentrionale)

  • US West (Oregon)

1,024

4

system, messages e tools

Nozioni di base

Le seguenti sezioni mostrano una breve panoramica su come utilizzare la funzionalità di prompt caching per ogni metodo di interazione con i modelli tramite Amazon Bedrock.

L'API Converse offre opzioni avanzate e flessibili per implementare il prompt caching nelle conversazioni a più turni. Per ulteriori informazioni sui requisiti di prompt per ogni modello, consulta la sezione precedente. Modelli, regioni e limiti supportati

Richiesta di esempio

Gli esempi seguenti mostrano un checkpoint della cache impostato nei tools campimessages,system, o di una richiesta a Converse API. È possibile posizionare punti di controllo in una qualsiasi di queste posizioni per una determinata richiesta. Ad esempio, se si invia una richiesta al modello Claude 3.5 Sonnet v2, è possibile inserire due checkpoint nella cachemessages, un checkpoint nella cache e uno in entrata. system tools Per informazioni più dettagliate ed esempi di strutturazione e invio Converse Richieste API, vediEffettuare una conversazione con Converse Operazioni API.

messages checkpoints

In questo esempio, il primo image campo fornisce un'immagine al modello e il secondo text campo chiede al modello di analizzare l'immagine. Finché il numero di token che precedono l'cachePointcontentoggetto soddisfa il numero minimo di token per il modello, viene creato un checkpoint della cache.

... "messages": [ { "role": "user", "content": [ { "image": { "bytes": "asfb14tscve..." } }, { "text": "What's is in this image?" }, { "cachePoint": { "type": "default" } } ] } ] ...
system checkpoints

In questo esempio, si fornisce il prompt di sistema sul campo. text Successivamente, è possibile aggiungere un cachePoint campo per memorizzare nella cache il prompt di sistema.

... "system": [ { "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. " }, { "cachePoint": { "type": "default" } } ], ...
tools checkpoints

In questo esempio, fornite la definizione dell'utensile nel toolSpec campo. (In alternativa, potete richiamare uno strumento che avete definito in precedenza. Per ulteriori informazioni, vedereChiama uno strumento con Converse API.) Successivamente, puoi aggiungere un cachePoint campo per memorizzare lo strumento nella cache.

... toolConfig={ "tools": [ { "toolSpec": { "name": "top_song", "description": "Get the most popular song played on a radio station.", "inputSchema": { "json": { "type": "object", "properties": { "sign": { "type": "string", "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP." } }, "required": [ "sign" ] } } } }, { "cachePoint": { "type": "default" } } ] } ...

La risposta del modello di Converse L'API include due nuovi campi specifici per la memorizzazione nella cache dei prompt. CacheWriteInputTokensI valori CacheReadInputTokens and indicano quanti token sono stati letti dalla cache e quanti token sono stati scritti nella cache a causa della richiesta precedente. Questi sono i valori che ti vengono addebitati da Amazon Bedrock, a una tariffa inferiore al costo dell'inferenza completa del modello.

Converse API

L'API Converse offre opzioni avanzate e flessibili per implementare il prompt caching nelle conversazioni a più turni. Per ulteriori informazioni sui requisiti di prompt per ogni modello, consulta la sezione precedente. Modelli, regioni e limiti supportati

Richiesta di esempio

Gli esempi seguenti mostrano un checkpoint della cache impostato nei tools campimessages,system, o di una richiesta a Converse API. È possibile posizionare punti di controllo in una qualsiasi di queste posizioni per una determinata richiesta. Ad esempio, se si invia una richiesta al modello Claude 3.5 Sonnet v2, è possibile inserire due checkpoint nella cachemessages, un checkpoint nella cache e uno in entrata. system tools Per informazioni più dettagliate ed esempi di strutturazione e invio Converse Richieste API, vediEffettuare una conversazione con Converse Operazioni API.

messages checkpoints

In questo esempio, il primo image campo fornisce un'immagine al modello e il secondo text campo chiede al modello di analizzare l'immagine. Finché il numero di token che precedono l'cachePointcontentoggetto soddisfa il numero minimo di token per il modello, viene creato un checkpoint della cache.

... "messages": [ { "role": "user", "content": [ { "image": { "bytes": "asfb14tscve..." } }, { "text": "What's is in this image?" }, { "cachePoint": { "type": "default" } } ] } ] ...
system checkpoints

In questo esempio, si fornisce il prompt di sistema sul campo. text Successivamente, è possibile aggiungere un cachePoint campo per memorizzare nella cache il prompt di sistema.

... "system": [ { "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. " }, { "cachePoint": { "type": "default" } } ], ...
tools checkpoints

In questo esempio, fornite la definizione dell'utensile nel toolSpec campo. (In alternativa, potete richiamare uno strumento che avete definito in precedenza. Per ulteriori informazioni, vedereChiama uno strumento con Converse API.) Successivamente, puoi aggiungere un cachePoint campo per memorizzare lo strumento nella cache.

... toolConfig={ "tools": [ { "toolSpec": { "name": "top_song", "description": "Get the most popular song played on a radio station.", "inputSchema": { "json": { "type": "object", "properties": { "sign": { "type": "string", "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP." } }, "required": [ "sign" ] } } } }, { "cachePoint": { "type": "default" } } ] } ...

In questo esempio, il primo image campo fornisce un'immagine al modello e il secondo text campo chiede al modello di analizzare l'immagine. Finché il numero di token che precedono l'cachePointcontentoggetto soddisfa il numero minimo di token per il modello, viene creato un checkpoint della cache.

... "messages": [ { "role": "user", "content": [ { "image": { "bytes": "asfb14tscve..." } }, { "text": "What's is in this image?" }, { "cachePoint": { "type": "default" } } ] } ] ...

La risposta del modello di Converse L'API include due nuovi campi specifici per la memorizzazione nella cache dei prompt. CacheWriteInputTokensI valori CacheReadInputTokens and indicano quanti token sono stati letti dalla cache e quanti token sono stati scritti nella cache a causa della richiesta precedente. Questi sono i valori che ti vengono addebitati da Amazon Bedrock, a una tariffa inferiore al costo dell'inferenza completa del modello.

La memorizzazione nella cache dei prompt è abilitata per impostazione predefinita quando si chiama l'InvokeModelAPI. È possibile impostare i checkpoint della cache in qualsiasi punto del corpo della richiesta, in modo analogo all'esempio precedente per Converse API.

L'esempio seguente mostra come strutturare il corpo della InvokeModel richiesta per Anthropic Claude 3.5 Sonnet modello v2. Tieni presente che il formato e i campi esatti del corpo delle InvokeModel richieste possono variare a seconda del modello scelto. Per visualizzare il formato e il contenuto dei corpi di richiesta e risposta per i diversi modelli, vedereParametri della richiesta di inferenza e campi di risposta per i modelli di base.

body={ "anthropic_version": "bedrock-2023-05-31", "system":"Reply concisely", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe the best way to learn programming." }, { "type": "text", "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.", "cache_control": { "type": "ephemeral" } } ] } ], "max_tokens": 2048, "temperature": 0.5, "top_p": 0.8, "stop_sequences": [ "stop" ], "top_k": 250 }

Per ulteriori informazioni sull'invio di una InvokeModel richiesta, vedereInvia una sola richiesta con InvokeModel.

La memorizzazione nella cache dei prompt è abilitata per impostazione predefinita quando si chiama l'InvokeModelAPI. È possibile impostare i checkpoint della cache in qualsiasi punto del corpo della richiesta, in modo analogo all'esempio precedente per Converse API.

L'esempio seguente mostra come strutturare il corpo della InvokeModel richiesta per Anthropic Claude 3.5 Sonnet modello v2. Tieni presente che il formato e i campi esatti del corpo delle InvokeModel richieste possono variare a seconda del modello scelto. Per visualizzare il formato e il contenuto dei corpi di richiesta e risposta per i diversi modelli, vedereParametri della richiesta di inferenza e campi di risposta per i modelli di base.

body={ "anthropic_version": "bedrock-2023-05-31", "system":"Reply concisely", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Describe the best way to learn programming." }, { "type": "text", "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.", "cache_control": { "type": "ephemeral" } } ] } ], "max_tokens": 2048, "temperature": 0.5, "top_p": 0.8, "stop_sequences": [ "stop" ], "top_k": 250 }

Per ulteriori informazioni sull'invio di una InvokeModel richiesta, vedereInvia una sola richiesta con InvokeModel.

In un ambiente di chat nella console Amazon Bedrock, puoi attivare l'opzione di memorizzazione rapida nella cache e Amazon Bedrock crea automaticamente i checkpoint della cache per te.

Segui le istruzioni Genera risposte nella console utilizzando i parchi giochi per iniziare a creare suggerimenti in un parco giochi Amazon Bedrock. Per i modelli supportati, la memorizzazione dei prompt nella cache viene attivata automaticamente nel parco giochi. Tuttavia, in caso contrario, procedi come segue per attivare la memorizzazione dei prompt nella cache:

  1. Nel pannello laterale sinistro, apri il menu Configurazioni.

  2. Attiva l'interruttore Prompt caching.

  3. Esegui le tue istruzioni.

Dopo che le risposte combinate di input e modello hanno raggiunto il numero minimo richiesto di token per un checkpoint (che varia in base al modello), Amazon Bedrock crea automaticamente il primo checkpoint della cache per te. Man mano che continui a chattare, ogni successivo raggiungimento del numero minimo di token crea un nuovo checkpoint, fino al numero massimo di checkpoint consentito per il modello. Puoi visualizzare i checkpoint della cache in qualsiasi momento selezionando Visualizza i checkpoint della cache accanto all'interruttore Prompt caching, come mostrato nella schermata seguente.

Attiva l'interfaccia utente per la memorizzazione rapida nella cache in un parco giochi di testo Amazon Bedrock.

Puoi vedere quanti token vengono letti e scritti nella cache a seguito di ogni interazione con il modello visualizzando il pop-up Caching metrics () nelle risposte del playground. The metrics icon shown in model responses when prompt caching is enabled.

Casella delle metriche di memorizzazione nella cache che mostra il numero di token letti e scritti nella cache.

Se disattivi l'opzione di memorizzazione dei prompt nella cache mentre sei nel bel mezzo di una conversazione, puoi continuare a chattare con la modella.

In un ambiente di chat nella console Amazon Bedrock, puoi attivare l'opzione di memorizzazione rapida nella cache e Amazon Bedrock crea automaticamente i checkpoint della cache per te.

Segui le istruzioni Genera risposte nella console utilizzando i parchi giochi per iniziare a creare suggerimenti in un parco giochi Amazon Bedrock. Per i modelli supportati, la memorizzazione dei prompt nella cache viene attivata automaticamente nel parco giochi. Tuttavia, in caso contrario, procedi come segue per attivare la memorizzazione dei prompt nella cache:

  1. Nel pannello laterale sinistro, apri il menu Configurazioni.

  2. Attiva l'interruttore Prompt caching.

  3. Esegui le tue istruzioni.

Dopo che le risposte combinate di input e modello hanno raggiunto il numero minimo richiesto di token per un checkpoint (che varia in base al modello), Amazon Bedrock crea automaticamente il primo checkpoint della cache per te. Man mano che continui a chattare, ogni successivo raggiungimento del numero minimo di token crea un nuovo checkpoint, fino al numero massimo di checkpoint consentito per il modello. Puoi visualizzare i checkpoint della cache in qualsiasi momento selezionando Visualizza i checkpoint della cache accanto all'interruttore Prompt caching, come mostrato nella schermata seguente.

Attiva l'interfaccia utente per la memorizzazione rapida nella cache in un parco giochi di testo Amazon Bedrock.

Puoi vedere quanti token vengono letti e scritti nella cache a seguito di ogni interazione con il modello visualizzando il pop-up Caching metrics () nelle risposte del playground. The metrics icon shown in model responses when prompt caching is enabled.

Casella delle metriche di memorizzazione nella cache che mostra il numero di token letti e scritti nella cache.

Se disattivi l'opzione di memorizzazione dei prompt nella cache mentre sei nel bel mezzo di una conversazione, puoi continuare a chattare con la modella.

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.