As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
nota
No momento, o cache de prompts do Amazon Bedrock está disponível apenas para um número selecionado de clientes. Para saber mais sobre como participar da prévia, consulte Cache de prompts do Amazon Bedrock
O cache imediato é um recurso opcional que você pode usar ao obter inferência de modelo no Amazon Bedrock para obter reduções na latência de resposta. Você pode adicionar partes de sua conversa a um cache para que o modelo possa reutilizar o contexto no cache em vez de processar totalmente as respostas de entrada e computar todas as vezes.
O cache imediato pode ajudar quando você tem cargas de trabalho com contextos longos e repetidos que são frequentemente reutilizados para várias consultas. Por exemplo, se você tiver um chatbot em que os usuários possam fazer upload de documentos e fazer perguntas sobre eles, pode ser demorado para o modelo processar o documento sempre que o usuário fornecer informações. Com o cache imediato, você pode armazenar o documento no contexto da conversa para obter respostas mais rápidas.
Ao usar o cache imediato, você é cobrado com uma taxa reduzida para inferência e uma taxa diferente para quantos tokens são lidos e gravados no cache. Para obter mais informações, consulte a página de preços do Amazon Bedrock
Como funciona
Se você optar por usar o cache imediato, o Amazon Bedrock cria um cache composto por pontos de verificação de cache. Esses são pontos de verificação nos quais todo o prefixo do prompt que leva a esse ponto é armazenado em cache. Nas solicitações subsequentes, o modelo pode recuperar essas informações em cache em vez de processá-las novamente, resultando em tempos de resposta mais rápidos e custos reduzidos.
Os pontos de verificação de cache têm um número mínimo e máximo de tokens, dependendo do modelo específico que você está usando. Você só pode criar um ponto de verificação de cache se o prefixo total do prompt atender ao número mínimo de tokens. Por exemplo, o modelo Anthropic Claude 3.5 Sonnet v2 requer 1.024 tokens para pontos de verificação de cache. Você pode criar seu primeiro ponto de verificação após sua solicitação e as respostas do modelo chegarem a 1.024 tokens. Você pode criar um segundo ponto de verificação depois que o total atingir 2.048 tokens. Se você tentar adicionar um ponto de verificação de cache sem atender ao número mínimo de tokens, sua solicitação de inferência ainda será bem-sucedida, mas o ponto de verificação não será adicionado ao cache.
O cache tem um Time To Live (TTL) de cinco minutos, que é reiniciado a cada acesso bem-sucedido ao cache. Durante esse período, o contexto no cache é preservado. Se nenhum acerto de cache ocorrer na janela TTL, seu cache expirará.
Se seu cache expirar, você poderá reutilizar o contexto anteriormente armazenado em cache até aquele ponto como o primeiro ponto de verificação de cache de um novo cache.
Você pode usar o cache imediato sempre que obtiver inferência de modelo no Amazon Bedrock para modelos compatíveis. O cache imediato é suportado pelos seguintes recursos do Amazon Bedrock:
- Converse e ConverseStream APIs
-
Você pode manter uma conversa com um modelo em que especifica pontos de verificação de cache em seus prompts.
- InvokeModel e InvokeModelWithResponseStream APIs
-
Você pode enviar solicitações de prompt único nas quais habilita o cache de prompts e especifica seus pontos de verificação de cache.
- Amazon Bedrock Agents
-
Ao criar ou atualizar um agente, você pode optar por ativar ou desativar o cache de prompts. O Amazon Bedrock gerencia automaticamente o comportamento imediato do armazenamento em cache e do ponto de verificação para você.
Eles APIs fornecem a você a maior flexibilidade e controle granular sobre o cache de solicitações. Você pode definir cada ponto de verificação de cache individual em seus prompts. Você pode adicionar ao cache criando mais pontos de verificação de cache, até o número máximo de pontos de verificação de cache permitido para o modelo específico. Para obter mais informações, consulte Modelos, regiões e limites compatíveis.
Para usar o cache de solicitações com outros recursos, como o Amazon Bedrock Agents, basta ativar o campo de cache de solicitações ao criar ou atualizar seu agente. Quando você ativa o cache imediato, o comportamento do cache e os pontos de verificação do cache são gerenciados automaticamente para você pelo Amazon Bedrock.
Modelos, regiões e limites compatíveis
A tabela a seguir lista os mínimos de tokens suportados Regiões da AWS, o número máximo de pontos de verificação de cache e os campos que permitem pontos de verificação de cache para cada modelo compatível.
Nome do modelo | ID do modelo | Regiões que oferecem suporte ao cache imediato | Número mínimo de tokens por ponto de verificação de cache | Número máximo de pontos de verificação de cache | Campos nos quais você pode adicionar pontos de verificação de cache |
---|---|---|---|---|---|
Amazon Nova Micro v1 |
amazônia. nova-micro-v1:0 |
Leste dos EUA (N. da Virgínia) Oeste dos EUA (Oregon) |
1 |
1 |
|
Amazon Nova Lite v1 |
amazônia. nova-lite-v1:0 |
Leste dos EUA (N. da Virgínia) Oeste dos EUA (Oregon) |
1 |
1 |
|
Amazon Nova Pro v1 |
amazônia. nova-pro-v1:0 |
Leste dos EUA (N. da Virgínia) Oeste dos EUA (Oregon) |
1 |
1 |
|
Claude 3.5 Haicai |
anthropic.claude-3-5-haiku-20241022-v1:0 |
Inferência regular: Oeste dos EUA (Oregon)
|
2.048 |
4 |
|
Claude 3.5 Sonnet v2 |
anthropic.claude-3-5-sonnet-20241022-v2:0 |
Inferência regular: Oeste dos EUA (Oregon)
|
1,024 |
4 |
|
Conceitos básicos
As seções a seguir mostram uma breve visão geral de como usar o recurso de cache imediato para cada método de interação com modelos por meio do Amazon Bedrock.
A API Converse fornece opções avançadas e flexíveis para implementar o cache imediato em conversas de vários turnos. Para obter mais informações sobre os requisitos imediatos de cada modelo, consulte a seção Modelos, regiões e limites compatíveis anterior.
Exemplo de solicitação
Os exemplos a seguir mostram um ponto de verificação de cache definido nos tools
campos messages
system
, ou de uma solicitação para o Converse API. Você pode colocar pontos de verificação em qualquer um desses locais para uma determinada solicitação. Por exemplo, ao enviar uma solicitação para o modelo Claude 3.5 Sonnet v2, você pode colocar dois pontos de verificação de cachemessages
, um ponto de verificação de cache em e um emsystem
. tools
Para obter informações mais detalhadas e exemplos de estruturação e envio Converse Solicitações de API, consulteConduza uma conversa com o Converse Operações de API.
A resposta do modelo do Converse A API inclui dois novos campos que são específicos para o cache de solicitações. CacheWriteInputTokens
Os valores CacheReadInputTokens
e informam quantos tokens foram lidos do cache e quantos tokens foram gravados no cache devido à sua solicitação anterior. Esses são valores pelos quais você é cobrado pelo Amazon Bedrock, a uma taxa menor do que o custo da inferência completa do modelo.
O cache de prompts é ativado por padrão quando você chama a InvokeModelAPI. Você pode definir pontos de verificação de cache em qualquer ponto do corpo da solicitação, semelhante ao exemplo anterior do Converse API.
O exemplo a seguir mostra como estruturar o corpo da sua InvokeModel solicitação para o Anthropic Claude 3.5 Sonnet modelo v2. Observe que o formato e os campos exatos do corpo das InvokeModel solicitações podem variar dependendo do modelo escolhido. Para ver o formato e o conteúdo dos corpos de solicitação e resposta para diferentes modelos, consulteParâmetros de solicitação de inferência e campos de resposta para modelos de base.
body={
"anthropic_version": "bedrock-2023-05-31",
"system":"Reply concisely",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe the best way to learn programming."
},
{
"type": "text",
"text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
"cache_control": {
"type": "ephemeral"
}
}
]
}
],
"max_tokens": 2048,
"temperature": 0.5,
"top_p": 0.8,
"stop_sequences": [
"stop"
],
"top_k": 250
}
Para obter mais informações sobre o envio de uma InvokeModel solicitação, consulteEnvie uma única solicitação com InvokeModel.
Em um playground de bate-papo no console do Amazon Bedrock, você pode ativar a opção de cache imediato, e o Amazon Bedrock cria automaticamente pontos de verificação de cache para você.
Siga as instruções Gerar respostas no console usando playgrounds para começar a fazer solicitações em um playground do Amazon Bedrock. Para modelos compatíveis, o cache imediato é ativado automaticamente no playground. No entanto, se não estiver, faça o seguinte para ativar o cache de prompts:
-
No painel lateral esquerdo, abra o menu Configurações.
-
Ative o botão Prompt caching.
-
Execute suas instruções.
Depois que suas respostas combinadas de entrada e modelo atingirem o número mínimo necessário de tokens para um ponto de verificação (que varia de acordo com o modelo), o Amazon Bedrock cria automaticamente o primeiro ponto de verificação de cache para você. Conforme você continua conversando, cada alcance subsequente do número mínimo de tokens cria um novo ponto de verificação, até o número máximo de pontos de verificação permitido para o modelo. Você pode visualizar seus pontos de verificação de cache a qualquer momento escolhendo Exibir pontos de verificação de cache ao lado do botão Prompt caching, conforme mostrado na captura de tela a seguir.

Você pode ver quantos tokens estão sendo lidos e gravados no cache devido a cada interação com o modelo visualizando o pop-up de métricas de cache (
) nas respostas do playground.

Se você desativar o botão de cache de prompts no meio de uma conversa, poderá continuar conversando com a modelo.