Como a fragmentação de conteúdo funciona para bases de conhecimento - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como a fragmentação de conteúdo funciona para bases de conhecimento

Ao ingerir seus dados, o Amazon Bedrock primeiro divide seus documentos ou conteúdo em partes gerenciáveis para uma recuperação eficiente dos dados. Depois, os fragmentos são convertidos em incorporações e gravados em um índice de vetores (representação vetorial dos dados), ao mesmo tempo em que mantêm uma correlação com o documento original. As incorporações vetoriais permitem que os textos sejam comparados quantitativamente.

Fragmentação padrão

O Amazon Bedrock é compatível com as seguintes abordagens padrão de fragmentação:

  • Fragmentação de tamanho fixo: você pode configurar o tamanho do fragmento desejado especificando o número de tokens por fragmento e uma porcentagem de sobreposição, oferecendo flexibilidade para se alinhar aos requisitos específicos. É possível definir o número máximo de tokens que não devem exceder um fragmento e a porcentagem de sobreposição entre fragmentos consecutivos.

  • Fragmentação padrão: divide o conteúdo em fragmentos de texto de aproximadamente 300 tokens. O processo de fragmentação respeita os limites das frases, garantindo que as frases completas sejam preservadas em cada fragmento.

Você também pode optar por nenhuma fragmentação para os documentos. Cada documento é tratado como um único fragmento de texto. Convém pré-processar os documentos, dividindo-os em arquivos separados antes de optar por nenhuma fragmentação como abordagem/estratégia de fragmentação. Se você optar por não agrupar seus documentos, não poderá visualizar o número da página na citação ou filtrar pelo campo/atributo de metadados x-amz-bedrock-kb- document-page-number. Esse campo é gerado automaticamente somente para arquivos PDF e se você usar o Amazon OpenSearch Serverless como seu armazenamento de vetores.

Fragmentação hierárquica

A fragmentação hierárquica envolve a organização das informações em estruturas aninhadas de fragmentos pai e filho. Ao criar uma fonte de dados, você pode definir o tamanho do fragmento pai, o tamanho do fragmento filho e o número de tokens de sobreposição entre cada fragmento. Durante a recuperação, o sistema recupera inicialmente fragmentos filho, mas os substitui por fragmentos pai maiores para dar ao modelo um contexto mais abrangente.

Pequenas incorporações de texto são mais precisas, mas a recuperação visa um contexto abrangente. Um sistema de fragmentação hierárquica equilibra essas necessidades substituindo os fragmentos filho recuperados pelos fragmentos pai quando indicado.

Para fragmentação hierárquica, as bases de conhecimento do Amazon Bedrock permitem especificar dois níveis ou a seguinte profundidade para fragmentação:

  • Pai: você define o tamanho máximo do token do fragmento pai.

  • Filho: você define o tamanho máximo do token do fragmento filho.

Você também define os tokens de sobreposição entre os fragmentos. Esse é o número absoluto de tokens de sobreposição entre fragmentos pai consecutivos e fragmentos filho consecutivos.

Fragmentação semântica

Fragmentação semântica é uma técnica de processamento de linguagem natural que divide o texto em fragmentos significativos para melhorar a compreensão e a recuperação de informações. Ela deve aumentar a precisão da recuperação concentrando-se no conteúdo semântico, e não apenas na estrutura sintática. Fazendo isso, ela pode facilitar uma extração e manipulação mais precisas de informações relevantes.

Ao configurar a fragmentação semântica, você tem a opção de especificar os hiperparâmetros a seguir.

  • Máximo de tokens: o número máximo de fichas que devem ser incluídos em um único fragmento, respeitando os limites de frase.

  • Tamanho do buffer: para uma determinada frase, o tamanho do buffer define o número de frases próximas a serem adicionadas para criação de incorporações. Por exemplo, um tamanho de buffer 1 resulta em 3 frases (atual, anterior e próxima) a serem combinadas e incorporadas. Esse parâmetro pode influenciar a quantidade de texto examinada em conjunto para determinar os limites de cada fragmento, afetando a granularidade e a coerência dos fragmentos resultantes. Um tamanho de buffer maior pode registrar mais contexto, embora também possa introduzir ruído, e um tamanho de buffer menor pode perder um contexto importante, mas garante uma fragmentação mais precisa.

  • Limite do percentil do ponto de interrupção: o limite percentual da distância/dissimilaridade da frase para traçar pontos de interrupção entre as frases. Um limite mais alto exige que as frases sejam mais distinguíveis para serem divididas em fragmentos diferentes. Um limite maior acarreta menos fragmentos e, normalmente, um tamanho de fragmento médio maior.

    nota

    Existem custos adicionais para o uso da fragmentação semântica por causa do uso de um modelo básico. O custo depende da quantidade de dados que você tem. Consulte Preços do Amazon Bedrock para obter informações sobre o custo dos modelos de base.