As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Certos modelos básicos podem realizar o raciocínio do modelo, onde eles pegam uma tarefa maior e complexa e a dividem em etapas menores e mais simples. Esse processo, geralmente chamado de raciocínio em cadeia de pensamento (CoT), pode melhorar a precisão do modelo, dando ao modelo a chance de pensar antes de responder. O raciocínio do modelo é mais útil para tarefas como análise em várias etapas, problemas matemáticos e tarefas complexas de raciocínio. Para obter mais informações, consulte Melhore as respostas do modelo com o raciocínio do modelo.
Quando o raciocínio do modelo está ativado, ele pode resultar em maior precisão com melhores resultados de citação, mas pode resultar em um aumento da latência. A seguir estão algumas considerações ao consultar as fontes de dados e gerar respostas usando modelos de raciocínio com o Amazon Bedrock Knowledge Bases.
Tópicos
Usando o raciocínio de modelos nas bases de conhecimento Amazon Bedrock
O raciocínio do modelo pode ser ativado ou desativado usando o additionalModelRequestFields
parâmetro da RetrieveAndGenerate
API. Esse parâmetro aceita qualquer par de valores-chave. Por exemplo, você pode adicionar um reasoningConfig
campo e usar uma type
tecla para ativar ou desativar o raciocínio, conforme mostrado abaixo.
{
"input": {
"text": "string",
"retrieveAndGenerateConfiguration": {
"knowledgeBaseConfiguration": {
"generationConfiguration": {
"additionalModelRequestFields": {
"reasoningConfig" : {
"type": "enabled",
"budget": INT_VAL, #required when enabled
}
}
},
"knowledgeBaseId": "string",
},
"type": "string"
},
"sessionId": "string"
}
Considerações gerais
A seguir estão algumas considerações gerais sobre o uso dos modelos de raciocínio para bases de conhecimento.
-
O modelo Anthropic Claude 3.7 Sonnet, com ID
anthropic.claude-3-7-sonnet-20250219-v1:0
de modelo, pode fazer o raciocínio. -
O raciocínio pode ser ativado ou desativado para esse modelo usando um orçamento de token configurável. Por padrão, o raciocínio está desativado e o número padrão de tokens de saída para o modelo Claude 3.7 Sonnet é 4096.
-
Os modelos de raciocínio terão até cinco minutos para responder a uma consulta. Se o modelo levar mais de cinco minutos para responder à consulta, isso resultará em um tempo limite.
-
Para evitar exceder o tempo limite de cinco minutos, o raciocínio do modelo só pode ser ativado para a etapa de geração quando você configura suas consultas e a geração de respostas. Ela não pode ser ativada na etapa de orquestração.
-
Os modelos de raciocínio podem usar até 8192 tokens para responder às consultas, o que incluirá tanto os tokens de saída quanto os de pensamento. Qualquer solicitação que tenha uma solicitação de número máximo de tokens de saída maior que esse limite resultará em um erro.
Recupere e gere considerações sobre a API
A seguir estão algumas considerações ao usar a RetrieveAndGenerate
API para os modelos de raciocínio.
-
Por padrão, quando o raciocínio está desativado para todos os modelos, incluindo o Claude 3.7 Sonnet, a temperatura é ajustada para zero. Quando o raciocínio está ativado, a temperatura deve ser ajustada para um.
-
O parâmetro Top P deve ser desativado quando o raciocínio está ativado para o modelo Claude 3.7 Sonnet. Top P é um campo adicional de solicitação de modelo que determina o percentil de possíveis tokens a serem selecionados durante a geração. Por padrão, o valor Top P para outros modelos Anthropic Claude é um. Para o modelo Claude 3.7 Sonnet, esse valor será desativado por padrão.
-
Quando o raciocínio do modelo está ativado, isso pode resultar em um aumento na latência. Ao usar a operação da
RetrieveAndGenerateStream
API, você pode notar um atraso no recebimento da resposta da API.