Configure a geração de respostas para modelos e considerações de raciocínio

Modo de foco

Configure a geração de respostas para modelos e considerações de raciocínio - Amazon Bedrock

Usando o raciocínio de modelos nas bases de conhecimento Amazon Bedrock Considerações gerais Recupere e gere considerações sobre a API

Certos modelos básicos podem realizar o raciocínio do modelo, onde eles pegam uma tarefa maior e complexa e a dividem em etapas menores e mais simples. Esse processo, geralmente chamado de raciocínio em cadeia de pensamento (CoT), pode melhorar a precisão do modelo, dando ao modelo a chance de pensar antes de responder. O raciocínio do modelo é mais útil para tarefas como análise em várias etapas, problemas matemáticos e tarefas complexas de raciocínio. Para obter mais informações, consulte Melhore as respostas do modelo com o raciocínio do modelo.

Quando o raciocínio do modelo está ativado, ele pode resultar em maior precisão com melhores resultados de citação, mas pode resultar em um aumento da latência. A seguir estão algumas considerações ao consultar as fontes de dados e gerar respostas usando modelos de raciocínio com o Amazon Bedrock Knowledge Bases.

Tópicos

Usando o raciocínio de modelos nas bases de conhecimento Amazon Bedrock
Considerações gerais
Recupere e gere considerações sobre a API

Usando o raciocínio de modelos nas bases de conhecimento Amazon Bedrock

O raciocínio do modelo pode ser ativado ou desativado usando o additionalModelRequestFields parâmetro da RetrieveAndGenerateAPI. Esse parâmetro aceita qualquer par de valores-chave. Por exemplo, você pode adicionar um reasoningConfig campo e usar uma type tecla para ativar ou desativar o raciocínio, conforme mostrado abaixo.


{
   "input": { 
      "text": "string",
      "retrieveAndGenerateConfiguration": { 
      "knowledgeBaseConfiguration": { 
         "generationConfiguration": { 
            "additionalModelRequestFields": {
                "reasoningConfig" : {
                    "type": "enabled",
                    "budget": INT_VAL, #required when enabled
                }
            }
         },
         "knowledgeBaseId": "string",
      },
      "type": "string"
   },
   "sessionId": "string"
}

Considerações gerais

A seguir estão algumas considerações gerais sobre o uso dos modelos de raciocínio para bases de conhecimento.

O modelo Anthropic Claude 3.7 Sonnet, com ID anthropic.claude-3-7-sonnet-20250219-v1:0 de modelo, pode fazer o raciocínio.
O raciocínio pode ser ativado ou desativado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desativado e o número padrão de tokens de saída para o modelo Claude 3.7 Sonnet é 4096.
Os modelos de raciocínio terão até cinco minutos para responder a uma consulta. Se o modelo levar mais de cinco minutos para responder à consulta, isso resultará em um tempo limite.
Para evitar exceder o tempo limite de cinco minutos, o raciocínio do modelo só pode ser ativado para a etapa de geração quando você configura suas consultas e a geração de respostas. Ela não pode ser ativada na etapa de orquestração.
Os modelos de raciocínio podem usar até 8192 tokens para responder às consultas, o que incluirá tanto os tokens de saída quanto os de pensamento. Qualquer solicitação que tenha uma solicitação de número máximo de tokens de saída maior que esse limite resultará em um erro.

Recupere e gere considerações sobre a API

A seguir estão algumas considerações ao usar a RetrieveAndGenerateAPI para os modelos de raciocínio.

Por padrão, quando o raciocínio está desativado para todos os modelos, incluindo o Claude 3.7 Sonnet, a temperatura é ajustada para zero. Quando o raciocínio está ativado, a temperatura deve ser ajustada para um.
O parâmetro Top P deve ser desativado quando o raciocínio está ativado para o modelo Claude 3.7 Sonnet. Top P é um campo adicional de solicitação de modelo que determina o percentil de possíveis tokens a serem selecionados durante a geração. Por padrão, o valor Top P para outros modelos Anthropic Claude é um. Para o modelo Claude 3.7 Sonnet, esse valor será desativado por padrão.
Quando o raciocínio do modelo está ativado, isso pode resultar em um aumento na latência. Ao usar a operação da RetrieveAndGenerateStreamAPI, você pode notar um atraso no recebimento da resposta da API.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Configurar e personalizar consultas e respostas

Implantar a base de conhecimento para a aplicação

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Configure a geração de respostas para modelos e considerações de raciocínio

Tópicos

Usando o raciocínio de modelos nas bases de conhecimento Amazon Bedrock

Considerações gerais

Recupere e gere considerações sobre a API

Nesta página

Esta página foi útil?

Próximo tópico:

Tópico anterior:

Precisa de ajuda?