Fragmentação padrão Fragmentação hierárquica Fragmentação semântica Fragmentação de conteúdo multimodal

Como a fragmentação de conteúdo funciona para bases de conhecimento

Ao ingerir dados, o Amazon Bedrock primeiro divide os documentos ou o conteúdo em partes manejáveis para uma recuperação de dados eficiente. Depois, os fragmentos são convertidos em incorporações e gravados em um índice de vetores (representação vetorial dos dados), ao mesmo tempo em que mantêm uma correlação com o documento original. As incorporações de vetores permitem que os textos sejam comparados quantitativamente.

Fragmentação padrão

O Amazon Bedrock é compatível com as seguintes abordagens padrão de fragmentação:

nota

As estratégias de fragmentação de texto se aplicam somente a documentos de texto. Para conteúdo multimodal (áudio, vídeo, imagens), a fragmentação ocorre no nível do modelo de incorporação, não por meio dessas estratégias baseadas em texto.

Fixed-size fragmentação: você pode configurar o tamanho do bloco desejado especificando o número de tokens por bloco e uma porcentagem de sobreposição, oferecendo flexibilidade para se alinhar aos seus requisitos específicos. É possível definir o número máximo de tokens que não devem exceder um fragmento e a porcentagem de sobreposição entre fragmentos consecutivos.

nota
Para conteúdo analisado (como conteúdo usando analisadores avançados ou convertido de HTML), as Bases de Conhecimento Amazon Bedrock podem fragmentar o conteúdo para otimizar e obter melhores resultados. O fragmento respeita os limites lógicos do documento (como páginas ou seções) e não mescla o conteúdo entre esses limites, mesmo quando o aumento do tamanho máximo do token permitiria fragmentos maiores.
Fragmentação padrão: divide o conteúdo em fragmentos de texto de aproximadamente 300 tokens. O processo de fragmentação respeita os limites das frases, garantindo que as frases completas sejam preservadas em cada fragmento.

Você também pode optar por nenhuma fragmentação para os documentos. Cada documento é tratado como um único fragmento de texto. Talvez você queira pré-processar seus documentos dividindo-os em arquivos separados antes de escolher sem fragmentação como fragmentação. approach/strategy Se você optar por não agrupar seus documentos, não poderá visualizar o número da página na citação nem filtrar pelos metadados x-amz-bedrock-kb-document-page-number. field/attribute

Fragmentação hierárquica

A fragmentação hierárquica envolve a organização das informações em estruturas aninhadas de fragmentos pai e filho. Ao criar uma fonte de dados, você pode definir o tamanho do fragmento pai, o tamanho do fragmento filho e o número de tokens de sobreposição entre cada fragmento. Durante a recuperação, o sistema recupera inicialmente fragmentos filho, mas os substitui por fragmentos pai maiores para dar ao modelo um contexto mais abrangente.

Pequenas incorporações de texto são mais precisas, mas a recuperação visa um contexto abrangente. Um sistema de fragmentação hierárquica equilibra essas necessidades substituindo os fragmentos filho recuperados pelos fragmentos pai quando indicado.

nota

Como os fragmentos secundários são substituídos pelos fragmentos principais durante a recuperação, o número de resultados exibidos pode ser menor que o valor solicitado.
A fragmentação hierárquica não é recomendada ao usar o bucket vetorial do S3 como seu armazenamento de vetores. Ao usar um grande número de tokens para agrupamento (mais de 8000 tokens combinados), você pode se deparar com limitações de tamanho de metadados.

Para fragmentação hierárquica, as bases de conhecimento do Amazon Bedrock permitem especificar dois níveis ou a seguinte profundidade para fragmentação:

Pai: você define o tamanho máximo do token do fragmento pai.
Filho: você define o tamanho máximo do token do fragmento filho.

Você também define os tokens de sobreposição entre os fragmentos. Esse é o número absoluto de tokens de sobreposição entre fragmentos pai consecutivos e fragmentos filho consecutivos.

Fragmentação semântica

Fragmentação semântica é uma técnica de processamento de linguagem natural que divide o texto em fragmentos significativos para melhorar a compreensão e a recuperação de informações. Ela deve aumentar a precisão da recuperação concentrando-se no conteúdo semântico, e não apenas na estrutura sintática. Ao fazer isso, pode ajudar na extração e manipulação mais precisas de informações relevantes.

Ao configurar a fragmentação semântica, você tem a opção de especificar os hiperparâmetros a seguir.

Máximo de tokens: o número máximo de fichas que devem ser incluídos em um único fragmento, respeitando os limites de frase.
Tamanho do buffer: para uma determinada frase, o tamanho do buffer define o número de frases próximas a serem adicionadas para criação de incorporações. Por exemplo, um tamanho de buffer 1 resulta em 3 frases (atual, anterior e próxima) a serem combinadas e incorporadas. Esse parâmetro pode influenciar a quantidade de texto examinada em conjunto para determinar os limites de cada fragmento, afetando a granularidade e a coerência dos fragmentos resultantes. Um tamanho de buffer maior pode registrar mais contexto, embora também possa introduzir ruído, e um tamanho de buffer menor pode perder um contexto importante, mas garante uma fragmentação mais precisa.
Limite do percentil do ponto de interrupção: o limite do percentil da frase para traçar pontos de interrupção entre as frases. distance/dissimilarity Um limite mais alto exige que as frases sejam mais distinguíveis para serem divididas em partes diferentes. Um limite maior acarreta menos fragmentos e, normalmente, um tamanho de fragmento médio maior.

nota
Existem custos adicionais para o uso da fragmentação semântica por causa do uso de um modelo básico. O custo depende da quantidade de dados que você tem. Consulte Preços do Amazon Bedrock para obter informações sobre o custo dos modelos de base.

Fragmentação de conteúdo multimodal

Para conteúdo multimodal (áudio, vídeo, imagens), o comportamento de fragmentação difere dos documentos de texto:

Embutimentos multimodais Nova: a fragmentação ocorre no nível do modelo de incorporação. Você pode configurar a duração do bloco de áudio e vídeo de 1 a 30 segundos (padrão: 5 segundos). Para arquivos de vídeo, somente a duração do fragmento de vídeo se aplica, mesmo que o vídeo contenha áudio. A duração do fragmento de áudio só se aplica a arquivos de áudio independentes.
Analisador Bedrock Data Automation (BDA): o conteúdo é primeiro convertido em texto (transcrições e resumos de cenas) e, em seguida, estratégias padrão de fragmentação de texto são aplicadas ao texto convertido.

nota

Ao usar incorporações multimodais Nova, as estratégias de fragmentação de texto configuradas em sua base de conhecimento afetam apenas documentos de texto em sua fonte de dados, não arquivos de áudio, vídeo ou imagem.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Personalizar a base de conhecimento

Opções de análise