Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Configure a geração de respostas para modelos e considerações de raciocínio

Modo de foco
Configure a geração de respostas para modelos e considerações de raciocínio - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Certos modelos básicos podem realizar o raciocínio do modelo, onde eles pegam uma tarefa maior e complexa e a dividem em etapas menores e mais simples. Esse processo, geralmente chamado de raciocínio em cadeia de pensamento (CoT), pode melhorar a precisão do modelo, dando ao modelo a chance de pensar antes de responder. O raciocínio do modelo é mais útil para tarefas como análise em várias etapas, problemas matemáticos e tarefas complexas de raciocínio. Para obter mais informações, consulte Melhore as respostas do modelo com o raciocínio do modelo.

Quando o raciocínio do modelo está ativado, ele pode resultar em maior precisão com melhores resultados de citação, mas pode resultar em um aumento da latência. A seguir estão algumas considerações ao consultar as fontes de dados e gerar respostas usando modelos de raciocínio com o Amazon Bedrock Knowledge Bases.

Usando o raciocínio de modelos nas bases de conhecimento Amazon Bedrock

O raciocínio do modelo pode ser ativado ou desativado usando o additionalModelRequestFields parâmetro da RetrieveAndGenerateAPI. Esse parâmetro aceita qualquer par de valores-chave. Por exemplo, você pode adicionar um reasoningConfig campo e usar uma type tecla para ativar ou desativar o raciocínio, conforme mostrado abaixo.

{ "input": { "text": "string", "retrieveAndGenerateConfiguration": { "knowledgeBaseConfiguration": { "generationConfiguration": { "additionalModelRequestFields": { "reasoningConfig" : { "type": "enabled", "budget": INT_VAL, #required when enabled } } }, "knowledgeBaseId": "string", }, "type": "string" }, "sessionId": "string" }

Considerações gerais

A seguir estão algumas considerações gerais sobre o uso dos modelos de raciocínio para bases de conhecimento.

  • O modelo Anthropic Claude 3.7 Sonnet, com ID anthropic.claude-3-7-sonnet-20250219-v1:0 de modelo, pode fazer o raciocínio.

  • O raciocínio pode ser ativado ou desativado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desativado e o número padrão de tokens de saída para o modelo Claude 3.7 Sonnet é 4096.

  • Os modelos de raciocínio terão até cinco minutos para responder a uma consulta. Se o modelo levar mais de cinco minutos para responder à consulta, isso resultará em um tempo limite.

  • Para evitar exceder o tempo limite de cinco minutos, o raciocínio do modelo só pode ser ativado para a etapa de geração quando você configura suas consultas e a geração de respostas. Ela não pode ser ativada na etapa de orquestração.

  • Os modelos de raciocínio podem usar até 8192 tokens para responder às consultas, o que incluirá tanto os tokens de saída quanto os de pensamento. Qualquer solicitação que tenha uma solicitação de número máximo de tokens de saída maior que esse limite resultará em um erro.

Recupere e gere considerações sobre a API

A seguir estão algumas considerações ao usar a RetrieveAndGenerateAPI para os modelos de raciocínio.

  • Por padrão, quando o raciocínio está desativado para todos os modelos, incluindo o Claude 3.7 Sonnet, a temperatura é ajustada para zero. Quando o raciocínio está ativado, a temperatura deve ser ajustada para um.

  • O parâmetro Top P deve ser desativado quando o raciocínio está ativado para o modelo Claude 3.7 Sonnet. Top P é um campo adicional de solicitação de modelo que determina o percentil de possíveis tokens a serem selecionados durante a geração. Por padrão, o valor Top P para outros modelos Anthropic Claude é um. Para o modelo Claude 3.7 Sonnet, esse valor será desativado por padrão.

  • Quando o raciocínio do modelo está ativado, isso pode resultar em um aumento na latência. Ao usar a operação da RetrieveAndGenerateStreamAPI, você pode notar um atraso no recebimento da resposta da API.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.