Memorizzazione rapida nella cache per un'inferenza più rapida del modello

Modalità Focus

Memorizzazione rapida nella cache per un'inferenza più rapida del modello - Amazon Bedrock

Come funziona Modelli, regioni e limiti supportati Nozioni di base

Nota

Il prompt caching di Amazon Bedrock è attualmente disponibile solo per un numero selezionato di clienti. Per ulteriori informazioni sulla partecipazione all'anteprima, consulta Amazon Bedrock prompt caching.

Il prompt caching è una funzionalità opzionale che puoi utilizzare durante l'inferenza del modello in Amazon Bedrock per ridurre la latenza di risposta. Puoi aggiungere parti della conversazione a una cache in modo che il modello possa riutilizzare il contesto nella cache anziché elaborare completamente l'input e calcolare le risposte ogni volta.

La memorizzazione rapida nella cache può essere utile quando si hanno carichi di lavoro con contesti lunghi e ripetuti che vengono spesso riutilizzati per più query. Ad esempio, se disponi di un chatbot in cui gli utenti possono caricare documenti e porre domande su di essi, il modello può richiedere molto tempo per elaborare il documento ogni volta che l'utente fornisce un input. Con la memorizzazione rapida nella cache, è possibile memorizzare nella cache il documento nel contesto della conversazione per risposte più rapide.

Quando utilizzi il prompt caching, ti viene addebitata una tariffa ridotta per l'inferenza e una tariffa diversa per il numero di token letti e scritti nella cache. Per ulteriori informazioni, consulta la pagina Prezzi di Amazon Bedrock.

Come funziona

Se scegli di utilizzare il prompt caching, Amazon Bedrock crea una cache composta da checkpoint della cache. Si tratta di checkpoint in cui viene memorizzato nella cache l'intero prefisso del prompt che porta a quel punto. Nelle richieste successive, il modello può recuperare queste informazioni memorizzate nella cache anziché elaborarle nuovamente, con tempi di risposta più rapidi e costi ridotti.

I checkpoint della cache hanno un numero minimo e massimo di token, a seconda del modello specifico che stai utilizzando. Puoi creare un checkpoint della cache solo se il prefisso totale del prompt soddisfa il numero minimo di token. Ad esempio, il modello Anthropic Claude 3.5 Sonnet v2 richiede 1.024 token per i checkpoint della cache. È possibile creare il primo checkpoint dopo la richiesta e le risposte del modello raggiungono i 1.024 token. Puoi creare un secondo checkpoint dopo che il totale raggiunge i 2.048 token. Se provi ad aggiungere un checkpoint della cache senza soddisfare il numero minimo di token, la tua richiesta di inferenza ha comunque esito positivo ma il checkpoint non viene aggiunto alla cache.

La cache ha un Time To Live (TTL) di cinque minuti, che si ripristina a ogni accesso riuscito alla cache. Durante questo periodo, il contesto nella cache viene preservato. Se non si verificano accessi alla cache all'interno della finestra TTL, la cache scade.

Se la cache scade, puoi riutilizzare il contesto precedentemente memorizzato nella cache fino a quel momento come primo checkpoint di cache di una nuova cache.

Puoi utilizzare il prompt caching ogni volta che ottieni l'inferenza del modello in Amazon Bedrock per i modelli supportati. La memorizzazione rapida nella cache è supportata dalle seguenti funzionalità di Amazon Bedrock:

Converse e ConverseStream APIs: Puoi continuare una conversazione con un modello in cui specifichi i checkpoint della cache nelle tue istruzioni.
InvokeModel e InvokeModelWithResponseStream APIs: È possibile inviare richieste a richiesta singola in cui è possibile abilitare la memorizzazione nella cache dei prompt e specificare i checkpoint della cache.
Agenti Amazon Bedrock: Quando crei o aggiorni un agente, puoi scegliere di abilitare o disabilitare la memorizzazione dei prompt nella cache. Amazon Bedrock gestisce automaticamente il comportamento dei prompt caching e dei checkpoint per te.

Ti APIs offrono la massima flessibilità e il controllo granulare sulla cache dei prompt. Puoi impostare ogni singolo checkpoint della cache all'interno dei tuoi prompt. È possibile aggiungere alla cache creando più checkpoint della cache, fino al numero massimo di checkpoint della cache consentito per il modello specifico. Per ulteriori informazioni, consulta Modelli, regioni e limiti supportati.

Per utilizzare il prompt caching con altre funzionalità come Amazon Bedrock Agents, devi semplicemente abilitare il campo prompt caching quando crei o aggiorni il tuo agente. Quando abiliti il prompt caching, il comportamento di memorizzazione nella cache e i checkpoint della cache vengono gestiti automaticamente da Amazon Bedrock.

Modelli, regioni e limiti supportati

La tabella seguente elenca i valori minimi di token supportati Regioni AWS, il numero massimo di checkpoint della cache e i campi che consentono i checkpoint della cache per ogni modello supportato.

Nome modello	ID del modello	Regioni che supportano la memorizzazione rapida nella cache	Numero minimo di token per checkpoint della cache	Numero massimo di checkpoint della cache	Campi in cui è possibile aggiungere checkpoint della cache
Amazon Nova Micro versione 1	amazzone. nova-micro-v1:0	Stati Uniti orientali (Virginia settentrionale) US West (Oregon)	1	1	`system`
Amazon Nova Lite versione 1	amazzone. nova-lite-v1:0	Stati Uniti orientali (Virginia settentrionale) US West (Oregon)	1	1	`system`
Amazon Nova Pro versione 1	amazzone. nova-pro-v1:0	Stati Uniti orientali (Virginia settentrionale) US West (Oregon)	1	1	`system`
Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v 1:0	Inferenza regolare: Stati Uniti occidentali (Oregon) Inferenza tra regioni: Stati Uniti orientali (Virginia settentrionale) US West (Oregon)	2.048	4	`system`, `messages` e `tools`
Claude 3.5 Sonnet v2	anthropic.claude-3-5-sonnet-20241022-v 2:0	Inferenza regolare: Stati Uniti occidentali (Oregon) Inferenza tra regioni: Stati Uniti orientali (Virginia settentrionale) US West (Oregon)	1,024	4	`system`, `messages` e `tools`

Nozioni di base

Le seguenti sezioni mostrano una breve panoramica su come utilizzare la funzionalità di prompt caching per ogni metodo di interazione con i modelli tramite Amazon Bedrock.

L'API Converse offre opzioni avanzate e flessibili per implementare il prompt caching nelle conversazioni a più turni. Per ulteriori informazioni sui requisiti di prompt per ogni modello, consulta la sezione precedente. Modelli, regioni e limiti supportati

Richiesta di esempio

Gli esempi seguenti mostrano un checkpoint della cache impostato nei tools campimessages,system, o di una richiesta a Converse API. È possibile posizionare punti di controllo in una qualsiasi di queste posizioni per una determinata richiesta. Ad esempio, se si invia una richiesta al modello Claude 3.5 Sonnet v2, è possibile inserire due checkpoint nella cachemessages, un checkpoint nella cache e uno in entrata. system tools Per informazioni più dettagliate ed esempi di strutturazione e invio Converse Richieste API, vediEffettuare una conversazione con Converse Operazioni API.

messages checkpoints

In questo esempio, il primo image campo fornisce un'immagine al modello e il secondo text campo chiede al modello di analizzare l'immagine. Finché il numero di token che precedono l'cachePointcontentoggetto soddisfa il numero minimo di token per il modello, viene creato un checkpoint della cache.


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

In questo esempio, si fornisce il prompt di sistema sul campo. text Successivamente, è possibile aggiungere un cachePoint campo per memorizzare nella cache il prompt di sistema.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints

In questo esempio, fornite la definizione dell'utensile nel toolSpec campo. (In alternativa, potete richiamare uno strumento che avete definito in precedenza. Per ulteriori informazioni, vedereChiama uno strumento con Converse API.) Successivamente, puoi aggiungere un cachePoint campo per memorizzare lo strumento nella cache.


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

La risposta del modello di Converse L'API include due nuovi campi specifici per la memorizzazione nella cache dei prompt. CacheWriteInputTokensI valori CacheReadInputTokens and indicano quanti token sono stati letti dalla cache e quanti token sono stati scritti nella cache a causa della richiesta precedente. Questi sono i valori che ti vengono addebitati da Amazon Bedrock, a una tariffa inferiore al costo dell'inferenza completa del modello.

Converse API

Richiesta di esempio

messages checkpoints


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

In questo esempio, si fornisce il prompt di sistema sul campo. text Successivamente, è possibile aggiungere un cachePoint campo per memorizzare nella cache il prompt di sistema.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

anchor anchor anchor


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

La memorizzazione nella cache dei prompt è abilitata per impostazione predefinita quando si chiama l'InvokeModelAPI. È possibile impostare i checkpoint della cache in qualsiasi punto del corpo della richiesta, in modo analogo all'esempio precedente per Converse API.

L'esempio seguente mostra come strutturare il corpo della InvokeModel richiesta per Anthropic Claude 3.5 Sonnet modello v2. Tieni presente che il formato e i campi esatti del corpo delle InvokeModel richieste possono variare a seconda del modello scelto. Per visualizzare il formato e il contenuto dei corpi di richiesta e risposta per i diversi modelli, vedereParametri della richiesta di inferenza e campi di risposta per i modelli di base.


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Per ulteriori informazioni sull'invio di una InvokeModel richiesta, vedereInvia una sola richiesta con InvokeModel.

InvokeModel API


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Per ulteriori informazioni sull'invio di una InvokeModel richiesta, vedereInvia una sola richiesta con InvokeModel.

In un ambiente di chat nella console Amazon Bedrock, puoi attivare l'opzione di memorizzazione rapida nella cache e Amazon Bedrock crea automaticamente i checkpoint della cache per te.

Segui le istruzioni Genera risposte nella console utilizzando i parchi giochi per iniziare a creare suggerimenti in un parco giochi Amazon Bedrock. Per i modelli supportati, la memorizzazione dei prompt nella cache viene attivata automaticamente nel parco giochi. Tuttavia, in caso contrario, procedi come segue per attivare la memorizzazione dei prompt nella cache:

Nel pannello laterale sinistro, apri il menu Configurazioni.
Attiva l'interruttore Prompt caching.
Esegui le tue istruzioni.

Dopo che le risposte combinate di input e modello hanno raggiunto il numero minimo richiesto di token per un checkpoint (che varia in base al modello), Amazon Bedrock crea automaticamente il primo checkpoint della cache per te. Man mano che continui a chattare, ogni successivo raggiungimento del numero minimo di token crea un nuovo checkpoint, fino al numero massimo di checkpoint consentito per il modello. Puoi visualizzare i checkpoint della cache in qualsiasi momento selezionando Visualizza i checkpoint della cache accanto all'interruttore Prompt caching, come mostrato nella schermata seguente.

Attiva l'interfaccia utente per la memorizzazione rapida nella cache in un parco giochi di testo Amazon Bedrock.

Puoi vedere quanti token vengono letti e scritti nella cache a seguito di ogni interazione con il modello visualizzando il pop-up Caching metrics () nelle risposte del playground.

Casella delle metriche di memorizzazione nella cache che mostra il numero di token letti e scritti nella cache.

Se disattivi l'opzione di memorizzazione dei prompt nella cache mentre sei nel bel mezzo di una conversazione, puoi continuare a chattare con la modella.

Parco giochi

In un ambiente di chat nella console Amazon Bedrock, puoi attivare l'opzione di memorizzazione rapida nella cache e Amazon Bedrock crea automaticamente i checkpoint della cache per te.

Nel pannello laterale sinistro, apri il menu Configurazioni.
Attiva l'interruttore Prompt caching.
Esegui le tue istruzioni.

Puoi vedere quanti token vengono letti e scritti nella cache a seguito di ogni interazione con il modello visualizzando il pop-up Caching metrics () nelle risposte del playground.

Se disattivi l'opzione di memorizzazione dei prompt nella cache mentre sei nel bel mezzo di una conversazione, puoi continuare a chattare con la modella.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Usa uno strumento informatico per completare una risposta del modello

Elabora più prompt con inferenza in batch

In questa pagina

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Memorizzazione rapida nella cache per un'inferenza più rapida del modello

Nota

Come funziona

Modelli, regioni e limiti supportati

Nozioni di base

Converse API

InvokeModel API

Parco giochi

In questa pagina

Related resources

Questa pagina ti è stata utile?

Related resources

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?

Attiva l'interfaccia utente per la memorizzazione rapida nella cache in un parco giochi di testo Amazon Bedrock.

Casella delle metriche di memorizzazione nella cache che mostra il numero di token letti e scritti nella cache.