Como uma base de conhecimento lida com ressincronizações

Sincronizar os dados com a base de conhecimento do Amazon Bedrock

Importante

Para uma precisão de recuperação otimizada e uma experiência gerenciada, recomendamos o Amazon Bedrock Managed Knowledge Base.

Depois de criar a base de conhecimento, ingira ou sincronize os dados para que eles possam ser consultados. A ingestão converte os dados brutos na fonte de dados em incorporações de vetores, com base no modelo de incorporação de vetores e nas configurações especificadas.

Antes de começar a ingestão, verifique se a fonte de dados atende às seguintes condições:

Você configurou as informações de conexão da fonte de dados. Para configurar um conector de fonte de dados para rastrear os dados do repositório da fonte de dados, consulte Conectores compatíveis de fonte de dados. Você configura a fonte de dados como parte criação da base de conhecimento.
Você configurou o modelo de incorporação de vetores e o armazenamento de vetores escolhidos. Consulte os modelos de incorporação de vetores compatíveis e os armazenamentos de vetores de base de conhecimento. Você configura as incorporações de vetores como parte da criação da base de conhecimento.
Os arquivos estão nos formatos compatíveis. Para obter mais informações, consulte Formatos de documento compatíveis.
Os arquivos não excedem o tamanho do arquivo de trabalho de ingestão especificado em Amazon Bedrock endpoints and quotas no Referência geral da AWS.
Se a fonte de dados contiver arquivos de metadados, verifique as seguintes condições para garantir que os arquivos de metadados não sejam ignorados:
- Cada arquivo .metadata.json compartilha o mesmo nome e extensão do arquivo de origem ao qual está associado.
- Se o índice vetorial da sua base de conhecimento estiver em um armazenamento vetorial Amazon OpenSearch Serverless, verifique se o índice vetorial está configurado com o faiss mecanismo. Se o índice de vetores estiver configurado com o mecanismo nmslib, será necessário fazer o seguinte:
  - Crie uma nova base de conhecimento no console e deixe que o Amazon Bedrock crie automaticamente um índice vetorial no Amazon OpenSearch Serverless para você.
  - Criar outro índice de vetores no armazenamento de vetores e selecionar faiss como o mecanismo. Em seguida, criar uma base de conhecimento e especificar o novo índice de vetores.
- Se o índice de vetores da base de conhecimento estiver em um cluster de banco de dados do Amazon Aurora, recomendamos que você use o campo de metadados personalizados para armazenar todos os metadados em uma única coluna e criar um índice nessa coluna. Se você não fornecer o campo de metadados personalizados, verifique se a tabela do índice contém uma coluna para cada propriedade de metadados nos arquivos de metadados antes de iniciar a ingestão. Para obter mais informações, consulte Pré-requisitos para usar o armazenamento de vetores que você criou para uma base de conhecimento.

Sempre que você adicionar, modificar ou remover arquivos da fonte de dados, sincronize a fonte de dados para que ela seja reindexada na base de conhecimento. A sincronização é incremental, portanto, o Amazon Bedrock processa somente documentos adicionados, modificados ou excluídos desde a última sincronização.

Como uma base de conhecimento lida com ressincronizações

Sempre que você adiciona, modifica ou remove arquivos da sua fonte de dados, você deve sincronizar a fonte de dados para que ela seja reindexada na base de conhecimento. A sincronização é incremental, então o Amazon Bedrock processa somente os documentos que foram adicionados, modificados ou excluídos desde a última sincronização. Quando você sincroniza uma fonte de dados, o Amazon Bedrock reingere documentos para garantir precisão e consistência. Re-ingestion inclui análise, fragmentação, geração de incorporações e indexação no armazenamento vetorial.

Cenários de sincronização
Cenário	O que acontece
Nenhuma alteração detectada	O documento foi ignorado.
Conteúdo ou metadados alterados	O documento é ingerido novamente (reanalisado, fragmentado novamente, reincorporado e reindexado).
Novo documento adicionado	Somente o novo documento é ingerido.
Documento excluído	O documento é removido do armazenamento de vetores.

Metadata-only otimização

Em certos casos, o Amazon Bedrock pode atualizar metadados sem reingerir o documento associado a esse arquivo de metadados. Essa otimização recupera as incorporações vetoriais existentes do armazenamento de vetores, mescla os novos metadados e grava as incorporações atualizadas, o que evita chamadas ao modelo de incorporação.

Essa otimização se aplica somente quando todas as seguintes condições são atendidas:

Somente metadata.json os arquivos são modificados. Nenhum arquivo de conteúdo é alterado.
Os arquivos de conteúdo associados não são arquivos CSV.
A fonte de dados não usa uma função Lambda de transformação personalizada.

Re-ingestion comportamento para arquivos CSV

Os arquivos CSV usam o documentStructureConfiguration campo nos metadados para controlar quais colunas são indexadas. Como o Amazon Bedrock não pode determinar se essa configuração estrutural foi alterada sem reprocessar o arquivo, os arquivos CSV são sempre reabsorvidos quando seus arquivos de metadados são atualizados.

Para saber como ingerir dados na base de conhecimento e sincronizar com os dados mais recentes, escolha a guia correspondente ao método de sua preferência e siga as etapas:

Console

Saiba como ingerir dados na base de conhecimento e sincronizar com os dados mais recentes.

Abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock/.
No painel de navegação à esquerda, selecione Base de conhecimento e escolha a base de conhecimento.
Na seção Fonte de dados, selecione Sincronizar para iniciar a ingestão de dados ou a sincronização dos dados mais recentes. Para interromper a sincronização de uma fonte de dados em andamento, selecione Parar. Uma fonte de dados deve estar sincronizada no momento para interromper a sincronização da fonte de dados. É possível selecionar Sincronizar novamente para ingerir o resto dos dados.
Quando a ingestão de dados for concluída, um banner verde de sucesso será exibido se ela tiver sido bem-sucedida.

nota
Após a conclusão da sincronização de dados, pode levar alguns minutos para que as incorporações dos dados recém-sincronizados sejam refletidas na base de conhecimento e estejam disponíveis para consulta se você usar um armazenamento de vetores diferente do Amazon Aurora (RDS).
É possível escolher uma fonte de dados para visualizar o Histórico de sincronização. Selecione Visualizar avisos para ver por que um trabalho de ingestão de dados falhou.

API

Para ingerir seus dados em sua base de conhecimento e sincronizar com seus dados mais recentes, envie uma StartIngestionJobsolicitação com um endpoint de tempo de construção do Agents for Amazon Bedrock. Especifique o knowledgeBaseId e o dataSourceId. Você também pode interromper um trabalho de ingestão de dados que está em execução no momento enviando uma StopIngestionJobsolicitação. Especifique o dataSourceId, o ingestionJobId e o knowledgeBaseId. Um trabalho de ingestão de dados deve estar em execução para interromper a ingestão de dados. É possível enviar uma solicitação StartIngestionJob novamente para ingerir o resto dos seus dados quando tudo estiver pronto.

Use o ingestionJobId retornado na resposta em uma GetIngestionJobsolicitação com um endpoint de tempo de construção do Agents for Amazon Bedrock para rastrear o status do trabalho de ingestão. Além disso, especifique o knowledgeBaseId e o dataSourceId.

Quando o trabalho de ingestão for concluído, o status na resposta será COMPLETE.

nota
Após a conclusão da ingestão de dados, pode levar alguns minutos para que as incorporações de vetores dos dados recém-ingeridos estejam disponíveis no armazenamento de vetores para consulta, se você usar um armazenamento de vetores diferente do Amazon Aurora (RDS).
O objeto statistics na resposta retorna informações sobre se a ingestão foi bem-sucedida ou não para documentos na fonte de dados.

Você também pode ver as informações de todos os trabalhos de ingestão de uma fonte de dados enviando uma ListIngestionJobssolicitação com um endpoint de tempo de construção do Agents for Amazon Bedrock. Especifique o dataSourceId e o knowledgeBaseId da base de conhecimento na qual os dados estão sendo ingeridos.

Filtre os resultados especificando um status a ser pesquisado no objeto filters.
Classifique pela hora em que o trabalho foi iniciado ou pelo status de um trabalho, especificando o objeto sortBy. É possível classificar em ordem crescente ou decrescente.
Defina o número máximo de resultados a serem retornados em uma resposta no campo maxResults. Se houver mais resultados do que o número definido, a resposta retornará um nextToken que você poderá enviar em outra solicitação ListIngestionJobs para ver o próximo lote de trabalhos.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Definir configurações de segurança para a base de conhecimento

Ingerir alterações diretamente em uma base de conhecimento

Sincronizar os dados com a base de conhecimento do Amazon Bedrock

Importante

Como uma base de conhecimento lida com ressincronizações

Metadata-only otimização

Re-ingestion comportamento para arquivos CSV

Saiba como ingerir dados na base de conhecimento e sincronizar com os dados mais recentes.

nota

nota