Cómo funciona la fragmentación de contenido para las bases de conocimiento - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo funciona la fragmentación de contenido para las bases de conocimiento

Al ingerir los datos, Amazon Bedrock divide primero los documentos o el contenido en fragmentos gestionables para recuperar los datos de forma eficaz. A continuación, los fragmentos se convierten en incrustaciones que se escriben en un índice vectorial (representación vectorial de los datos), manteniendo una correspondencia con el documento original. Las incrustaciones vectoriales permiten comparar cuantitativamente los textos.

Fragmentación estándar

Amazon Bedrock admite los siguientes enfoques estándar de fragmentación:

  • Fragmentación de tamaño fijo: puede configurar el tamaño de fragmento deseado especificando el número de tokens por fragmento y un porcentaje de superposición, lo que proporciona flexibilidad para adaptarse a sus requisitos específicos. Puede establecer el número máximo de tokens que no debe superar un fragmento y el porcentaje de superposición entre fragmentos consecutivos.

  • Fragmentación predeterminada: el contenido se divide en fragmentos de texto de hasta 300 tokens. El proceso de fragmentación respeta los límites de las oraciones, lo que garantiza que dentro de cada fragmento se conserven oraciones completas.

También puede elegir que sus documentos no se dividan en fragmentos. Cada documento se trata como un único fragmento de texto. Recomendamos realizar un procesamiento previo de los documentos dividiéndolos en archivos independientes antes de optar por no fragmentar como enfoque o estrategia de fragmentación. Si eliges no fragmentar tus documentos, no podrás ver el número de página en la cita ni filtrar por el campo/atributo de metadatos. x-amz-bedrock-kb document-page-number Este campo se genera automáticamente solo para PDF los archivos y si utiliza Amazon OpenSearch Serverless como almacén de vectores.

Fragmentación jerárquica

La fragmentación jerárquica implica organizar la información en estructuras anidadas de fragmentos principales y secundarios. Al crear un origen de datos, puede definir el tamaño del fragmento principal, el tamaño del fragmento secundario y el número de tokens que se superponen entre cada fragmento. Durante la recuperación, el sistema recupera inicialmente los fragmentos secundarios, pero los reemplaza por fragmentos principales más amplios para proporcionar al modelo un contexto más completo.

Las incrustaciones de texto pequeñas son más precisas, pero la recuperación busca un contexto integral. Un sistema de fragmentación jerárquica equilibra estas necesidades al reemplazar los fragmentos secundarios recuperados por los fragmentos principales cuando sea apropiado.

Para la fragmentación jerárquica, las bases de conocimientos de Amazon Bedrock permiten especificar dos niveles o la siguiente profundidad para la fragmentación:

  • Principal: usted establece el tamaño máximo del token del fragmento principal.

  • Secundario: usted establece el tamaño máximo del token del fragmento secundario.

También establece los tokens superpuestos entre los fragmentos. Este es el número absoluto de tokens superpuestos entre los fragmentos principales consecutivos y los fragmentos secundarios consecutivos.

Fragmentación semántica

La fragmentación semántica es una técnica de procesamiento del lenguaje natural que divide el texto en fragmentos significativos para mejorar la comprensión y la recuperación de la información. Su objetivo es mejorar la precisión de la recuperación centrándose en el contenido semántico y no solo en la estructura sintáctica. Al hacerlo, puede facilitar una extracción y manipulación más precisas de la información pertinente.

Al configurar la fragmentación semántica, puede especificar los siguientes hiperparámetros.

  • Número máximo de tokens: el número máximo de tokens que se debe incluir en un único fragmento, respetando los límites de las oraciones.

  • Tamaño del búfer: para una oración determinada, el tamaño del búfer define el número de oraciones adyacentes que se añadirá al crear las incrustaciones. Por ejemplo, un tamaño de búfer de 1 da como resultado 3 frases (oración actual, anterior y siguiente) que se combinarán e incrustarán. Este parámetro puede influir en la cantidad de texto que se examina en conjunto para determinar los límites de cada fragmento, lo que repercute en la granularidad y la coherencia de los fragmentos resultantes. Un tamaño de búfer más grande puede capturar más contexto, pero también puede generar ruido, mientras que un tamaño de búfer más pequeño puede pasar por alto un contexto importante, pero garantiza una fragmentación más precisa.

  • Umbral del percentil del punto de ruptura: umbral del percentil de la distancia/disimilitud entre las oraciones para trazar puntos de interrupción entre las oraciones. Un umbral más alto requiere que las oraciones se distingan mejor para poder dividirlas en diferentes fragmentos. Un umbral más alto da como resultado menos fragmentos y, por lo general, un tamaño medio de fragmento mayor.

    nota

    El uso de la fragmentación semántica conlleva costos adicionales porque se utiliza un modelo fundacional. El costo depende de la cantidad de datos de los que disponga. Consulte Precios de Amazon Bedrock para obtener más información sobre el costo de los modelos fundacionales.