Cache imediato para inferência mais rápida do modelo

Modo de foco

Cache imediato para inferência mais rápida do modelo - Amazon Bedrock

Como funciona Modelos, regiões e limites compatíveis Conceitos básicos

nota

No momento, o cache de prompts do Amazon Bedrock está disponível apenas para um número selecionado de clientes. Para saber mais sobre como participar da prévia, consulte Cache de prompts do Amazon Bedrock.

O cache imediato é um recurso opcional que você pode usar ao obter inferência de modelo no Amazon Bedrock para obter reduções na latência de resposta. Você pode adicionar partes de sua conversa a um cache para que o modelo possa reutilizar o contexto no cache em vez de processar totalmente as respostas de entrada e computar todas as vezes.

O cache imediato pode ajudar quando você tem cargas de trabalho com contextos longos e repetidos que são frequentemente reutilizados para várias consultas. Por exemplo, se você tiver um chatbot em que os usuários possam fazer upload de documentos e fazer perguntas sobre eles, pode ser demorado para o modelo processar o documento sempre que o usuário fornecer informações. Com o cache imediato, você pode armazenar o documento no contexto da conversa para obter respostas mais rápidas.

Ao usar o cache imediato, você é cobrado com uma taxa reduzida para inferência e uma taxa diferente para quantos tokens são lidos e gravados no cache. Para obter mais informações, consulte a página de preços do Amazon Bedrock.

Como funciona

Se você optar por usar o cache imediato, o Amazon Bedrock cria um cache composto por pontos de verificação de cache. Esses são pontos de verificação nos quais todo o prefixo do prompt que leva a esse ponto é armazenado em cache. Nas solicitações subsequentes, o modelo pode recuperar essas informações em cache em vez de processá-las novamente, resultando em tempos de resposta mais rápidos e custos reduzidos.

Os pontos de verificação de cache têm um número mínimo e máximo de tokens, dependendo do modelo específico que você está usando. Você só pode criar um ponto de verificação de cache se o prefixo total do prompt atender ao número mínimo de tokens. Por exemplo, o modelo Anthropic Claude 3.5 Sonnet v2 requer 1.024 tokens para pontos de verificação de cache. Você pode criar seu primeiro ponto de verificação após sua solicitação e as respostas do modelo chegarem a 1.024 tokens. Você pode criar um segundo ponto de verificação depois que o total atingir 2.048 tokens. Se você tentar adicionar um ponto de verificação de cache sem atender ao número mínimo de tokens, sua solicitação de inferência ainda será bem-sucedida, mas o ponto de verificação não será adicionado ao cache.

O cache tem um Time To Live (TTL) de cinco minutos, que é reiniciado a cada acesso bem-sucedido ao cache. Durante esse período, o contexto no cache é preservado. Se nenhum acerto de cache ocorrer na janela TTL, seu cache expirará.

Se seu cache expirar, você poderá reutilizar o contexto anteriormente armazenado em cache até aquele ponto como o primeiro ponto de verificação de cache de um novo cache.

Você pode usar o cache imediato sempre que obtiver inferência de modelo no Amazon Bedrock para modelos compatíveis. O cache imediato é suportado pelos seguintes recursos do Amazon Bedrock:

Converse e ConverseStream APIs: Você pode manter uma conversa com um modelo em que especifica pontos de verificação de cache em seus prompts.
InvokeModel e InvokeModelWithResponseStream APIs: Você pode enviar solicitações de prompt único nas quais habilita o cache de prompts e especifica seus pontos de verificação de cache.
Amazon Bedrock Agents: Ao criar ou atualizar um agente, você pode optar por ativar ou desativar o cache de prompts. O Amazon Bedrock gerencia automaticamente o comportamento imediato do armazenamento em cache e do ponto de verificação para você.

Eles APIs fornecem a você a maior flexibilidade e controle granular sobre o cache de solicitações. Você pode definir cada ponto de verificação de cache individual em seus prompts. Você pode adicionar ao cache criando mais pontos de verificação de cache, até o número máximo de pontos de verificação de cache permitido para o modelo específico. Para obter mais informações, consulte Modelos, regiões e limites compatíveis.

Para usar o cache de solicitações com outros recursos, como o Amazon Bedrock Agents, basta ativar o campo de cache de solicitações ao criar ou atualizar seu agente. Quando você ativa o cache imediato, o comportamento do cache e os pontos de verificação do cache são gerenciados automaticamente para você pelo Amazon Bedrock.

Modelos, regiões e limites compatíveis

A tabela a seguir lista os mínimos de tokens suportados Regiões da AWS, o número máximo de pontos de verificação de cache e os campos que permitem pontos de verificação de cache para cada modelo compatível.

Nome do modelo	ID do modelo	Regiões que oferecem suporte ao cache imediato	Número mínimo de tokens por ponto de verificação de cache	Número máximo de pontos de verificação de cache	Campos nos quais você pode adicionar pontos de verificação de cache
Amazon Nova Micro v1	amazônia. nova-micro-v1:0	Leste dos EUA (N. da Virgínia) Oeste dos EUA (Oregon)	1	1	`system`
Amazon Nova Lite v1	amazônia. nova-lite-v1:0	Leste dos EUA (N. da Virgínia) Oeste dos EUA (Oregon)	1	1	`system`
Amazon Nova Pro v1	amazônia. nova-pro-v1:0	Leste dos EUA (N. da Virgínia) Oeste dos EUA (Oregon)	1	1	`system`
Claude 3.5 Haicai	anthropic.claude-3-5-haiku-20241022-v1:0	Inferência regular: Oeste dos EUA (Oregon) Inferência entre regiões: Leste dos EUA (N. da Virgínia) Oeste dos EUA (Oregon)	2.048	4	`system`, `messages`, e `tools`
Claude 3.5 Sonnet v2	anthropic.claude-3-5-sonnet-20241022-v2:0	Inferência regular: Oeste dos EUA (Oregon) Inferência entre regiões: Leste dos EUA (N. da Virgínia) Oeste dos EUA (Oregon)	1,024	4	`system`, `messages`, e `tools`

Conceitos básicos

As seções a seguir mostram uma breve visão geral de como usar o recurso de cache imediato para cada método de interação com modelos por meio do Amazon Bedrock.

A API Converse fornece opções avançadas e flexíveis para implementar o cache imediato em conversas de vários turnos. Para obter mais informações sobre os requisitos imediatos de cada modelo, consulte a seção Modelos, regiões e limites compatíveis anterior.

Exemplo de solicitação

Os exemplos a seguir mostram um ponto de verificação de cache definido nos tools campos messagessystem, ou de uma solicitação para o Converse API. Você pode colocar pontos de verificação em qualquer um desses locais para uma determinada solicitação. Por exemplo, ao enviar uma solicitação para o modelo Claude 3.5 Sonnet v2, você pode colocar dois pontos de verificação de cachemessages, um ponto de verificação de cache em e um emsystem. tools Para obter informações mais detalhadas e exemplos de estruturação e envio Converse Solicitações de API, consulteConduza uma conversa com o Converse Operações de API.

messages checkpoints

Neste exemplo, o primeiro image campo fornece uma imagem para o modelo e o segundo text campo solicita que o modelo analise a imagem. Desde que o número de tokens anteriores ao cachePoint no content objeto atenda à contagem mínima de tokens do modelo, um ponto de verificação de cache é criado.


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

Neste exemplo, você fornece o prompt do sistema no text campo. Depois, você pode adicionar um cachePoint campo para armazenar em cache o prompt do sistema.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints

Neste exemplo, você fornece sua definição de ferramenta no toolSpec campo. (Como alternativa, você pode chamar uma ferramenta que você definiu anteriormente. Para obter mais informações, consulteChame uma ferramenta com o Converse API.) Depois, você pode adicionar um cachePoint campo para armazenar a ferramenta em cache.


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

A resposta do modelo do Converse A API inclui dois novos campos que são específicos para o cache de solicitações. CacheWriteInputTokensOs valores CacheReadInputTokens e informam quantos tokens foram lidos do cache e quantos tokens foram gravados no cache devido à sua solicitação anterior. Esses são valores pelos quais você é cobrado pelo Amazon Bedrock, a uma taxa menor do que o custo da inferência completa do modelo.

Converse API

Exemplo de solicitação

messages checkpoints


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

system checkpoints

Neste exemplo, você fornece o prompt do sistema no text campo. Depois, você pode adicionar um cachePoint campo para armazenar em cache o prompt do sistema.


...
  "system": [ 
    {
        "text": "You are an app that creates play lists for a radio station that plays rock and pop music. Only return song names and the artist. "
    },
    {
        "cachePoint": {
            "type": "default"
        }
    }
  ],
...

tools checkpoints


...
toolConfig={
    "tools": [
        {
            "toolSpec": {
                "name": "top_song",
                "description": "Get the most popular song played on a radio station.",
                "inputSchema": {
                    "json": {
                        "type": "object",
                        "properties": {
                            "sign": {
                                "type": "string",
                                "description": "The call sign for the radio station for which you want the most popular song. Example calls signs are WZPZ and WKRP."
                            }
                        },
                        "required": [
                            "sign"
                        ]
                    }
                }
            }
        },
        {
                "cachePoint": {
                    "type": "default"
                }
        }
    ]
}
...

anchor anchor anchor


...
"messages": [
   {
        "role": "user",
        "content": [
            {
                "image": {
                    "bytes": "asfb14tscve..."
                }
            },
            {
                "text": "What's is in this image?"
            },
            {
                "cachePoint": {
                    "type": "default"
                }
            }
      ]
  }
]
...

O cache de prompts é ativado por padrão quando você chama a InvokeModelAPI. Você pode definir pontos de verificação de cache em qualquer ponto do corpo da solicitação, semelhante ao exemplo anterior do Converse API.

O exemplo a seguir mostra como estruturar o corpo da sua InvokeModel solicitação para o Anthropic Claude 3.5 Sonnet modelo v2. Observe que o formato e os campos exatos do corpo das InvokeModel solicitações podem variar dependendo do modelo escolhido. Para ver o formato e o conteúdo dos corpos de solicitação e resposta para diferentes modelos, consulteParâmetros de solicitação de inferência e campos de resposta para modelos de base.


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Para obter mais informações sobre o envio de uma InvokeModel solicitação, consulteEnvie uma única solicitação com InvokeModel.

InvokeModel API


body={
        "anthropic_version": "bedrock-2023-05-31",
        "system":"Reply concisely",
        "messages": [
            {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe the best way to learn programming."
                },
                {
                    "type": "text",
                    "text": "Add additional context here for the prompt that meets the minimum token requirement for your chosen model.",
                    "cache_control": {
                        "type": "ephemeral"
                    }
                }
            ]
            }
        ],
        "max_tokens": 2048,
        "temperature": 0.5,
        "top_p": 0.8,
        "stop_sequences": [
            "stop"
        ],
        "top_k": 250
}

Para obter mais informações sobre o envio de uma InvokeModel solicitação, consulteEnvie uma única solicitação com InvokeModel.

Em um playground de bate-papo no console do Amazon Bedrock, você pode ativar a opção de cache imediato, e o Amazon Bedrock cria automaticamente pontos de verificação de cache para você.

Siga as instruções Gerar respostas no console usando playgrounds para começar a fazer solicitações em um playground do Amazon Bedrock. Para modelos compatíveis, o cache imediato é ativado automaticamente no playground. No entanto, se não estiver, faça o seguinte para ativar o cache de prompts:

No painel lateral esquerdo, abra o menu Configurações.
Ative o botão Prompt caching.
Execute suas instruções.

Depois que suas respostas combinadas de entrada e modelo atingirem o número mínimo necessário de tokens para um ponto de verificação (que varia de acordo com o modelo), o Amazon Bedrock cria automaticamente o primeiro ponto de verificação de cache para você. Conforme você continua conversando, cada alcance subsequente do número mínimo de tokens cria um novo ponto de verificação, até o número máximo de pontos de verificação permitido para o modelo. Você pode visualizar seus pontos de verificação de cache a qualquer momento escolhendo Exibir pontos de verificação de cache ao lado do botão Prompt caching, conforme mostrado na captura de tela a seguir.

A interface do usuário ativa o cache imediato em um playground de texto do Amazon Bedrock.

Você pode ver quantos tokens estão sendo lidos e gravados no cache devido a cada interação com o modelo visualizando o pop-up de métricas de cache ( ) nas respostas do playground.

Caixa de métricas de armazenamento em cache que mostra o número de tokens lidos e gravados no cache.

Se você desativar o botão de cache de prompts no meio de uma conversa, poderá continuar conversando com a modelo.

Parque infantil

Em um playground de bate-papo no console do Amazon Bedrock, você pode ativar a opção de cache imediato, e o Amazon Bedrock cria automaticamente pontos de verificação de cache para você.

No painel lateral esquerdo, abra o menu Configurações.
Ative o botão Prompt caching.
Execute suas instruções.

Você pode ver quantos tokens estão sendo lidos e gravados no cache devido a cada interação com o modelo visualizando o pop-up de métricas de cache ( ) nas respostas do playground.

Se você desativar o botão de cache de prompts no meio de uma conversa, poderá continuar conversando com a modelo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Use uma ferramenta Computer Use para concluir uma resposta do modelo

Processar vários prompts com inferência em lote

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Cache imediato para inferência mais rápida do modelo

nota

Como funciona

Modelos, regiões e limites compatíveis

Conceitos básicos

Converse API

InvokeModel API

Parque infantil

Nesta página

Related resources

Esta página foi útil?

Related resources

Próximo tópico:

Tópico anterior:

Precisa de ajuda?

A interface do usuário ativa o cache imediato em um playground de texto do Amazon Bedrock.

Caixa de métricas de armazenamento em cache que mostra o número de tokens lidos e gravados no cache.