Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Personalice la ingesta de una fuente de datos
Puede personalizar la ingesta de vectores al conectar una fuente de datos AWS Management Console o al modificar el valor del vectorIngestionConfiguration
campo al enviar una CreateDataSourcesolicitud.
Seleccione un tema para aprender a incluir configuraciones para personalizar la ingesta al conectarse a una fuente de datos:
Temas
Elija la herramienta que se va a utilizar para el análisis
Puede personalizar la forma en que se analizan los documentos de sus datos. Para obtener más información sobre las opciones de análisis de datos en las bases de conocimiento de Amazon Bedrock, consulte. Opciones de análisis para su fuente de datos
aviso
No puede cambiar la estrategia de análisis después de conectarse a la fuente de datos. Para usar una estrategia de análisis diferente, puede agregar una nueva fuente de datos.
No puede añadir una ubicación de S3 para almacenar datos multimodales (incluidas imágenes, figuras, gráficos y tablas) después de haber creado una base de conocimientos. Si desea incluir datos multimodales y utilizar un analizador que los admita, debe crear una nueva base de conocimientos.
Los pasos necesarios para elegir una estrategia de análisis dependen de si utiliza la API AWS Management Console o la de Amazon Bedrock y del método de análisis que elija. Si elige un método de análisis que admita datos multimodales, debe especificar un URI de S3 en el que almacenar los datos multimodales extraídos de sus documentos. Estos datos se pueden devolver en una consulta a la base de conocimientos.
-
En el AWS Management Console, haga lo siguiente:
-
Seleccione la estrategia de análisis cuando se conecte a una fuente de datos mientras configura una base de conocimientos o cuando añada una nueva fuente de datos a su base de conocimientos existente.
-
(Si elige Amazon Bedrock Data Automation o un modelo básico como estrategia de análisis) Especifique un URI de S3 en el que almacenar los datos multimodales extraídos de sus documentos en la sección Destino de almacenamiento multimodal cuando seleccione un modelo de incrustaciones y configure su almacén vectorial. Si lo desea, también puede utilizar una clave gestionada por el cliente para cifrar los datos de S3 en este paso.
-
-
En la API de Amazon Bedrock, haga lo siguiente:
-
(Si planea utilizar Amazon Bedrock Data Automation o un modelo básico como estrategia de análisis) Incluya un SupplementalDataStorageLocationen VectorKnowledgeBaseConfigurationla solicitud. CreateKnowledgeBase
-
Incluya una ParsingConfigurationen el
parsingConfiguration
campo de VectorIngestionConfigurationla CreateDataSourcesolicitud.nota
Si omite esta configuración, Amazon Bedrock Knowledge Bases utilizará el analizador predeterminado de Amazon Bedrock.
-
Para obtener más información sobre cómo especificar una estrategia de análisis en la API, amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:
Para usar el analizador predeterminado, no incluya ningún parsingConfiguration
campo dentro del. VectorIngestionConfiguration
Para utilizar el analizador de Amazon Bedrock Data Automation, especifique BEDROCK_DATA_AUTOMATION
en el parsingStrategy
campo ParsingConfiguration
e incluya una BedrockDataAutomationConfigurationen el bedrockDataAutomationConfiguration
campo, con el siguiente formato:
{ "parsingStrategy": "BEDROCK_DATA_AUTOMATION", "bedrockDataAutomationConfiguration": { "parsingModality": "string" } }
Para utilizar un modelo base como analizador, especifique el BEDROCK_FOUNDATION_MODEL
en el parsingStrategy
campo del ParsingConfiguration
e incluya un BedrockFoundationModelConfigurationen el bedrockFoundationModelConfiguration
campo, como en el siguiente formato:
{ "parsingStrategy": "BEDROCK_FOUNDATION_MODEL", "bedrockFoundationModelConfiguration": { "modelArn": "string", "parsingModality": "string", "parsingPrompt": { "parsingPromptText": "string" } } }
Elija una estrategia de fragmentación
Puede personalizar la forma en que se dividen los documentos de sus datos para su almacenamiento y recuperación. Para obtener más información sobre las opciones de fragmentación de datos en las bases de conocimiento de Amazon Bedrock, consulte. Cómo funciona la fragmentación de contenido para las bases de conocimiento
aviso
No puede cambiar la estrategia de fragmentación después de conectarse a la fuente de datos.
En el AWS Management Console , usted elige la estrategia de fragmentación al conectarse a una fuente de datos. Con la API de Amazon Bedrock, incluye un ChunkingConfigurationen el chunkingConfiguration
campo de. VectorIngestionConfiguration
nota
Si omite esta configuración, Amazon Bedrock divide el contenido en partes de aproximadamente 300 fichas, sin perder los límites de las oraciones.
Amplíe la sección correspondiente a la estrategia de análisis que desee utilizar:
Para tratar cada documento de la fuente de datos como un fragmento de fuente único, especifique NONE
en el chunkingStrategy
campo delChunkingConfiguration
, como en el siguiente formato:
{ "chunkingStrategy": "NONE" }
Para dividir cada documento de la fuente de datos en fragmentos de aproximadamente el mismo tamaño, especifique FIXED_SIZE
en el chunkingStrategy
campo ChunkingConfiguration
e incluya una FixedSizeChunkingConfigurationen el fixedSizeChunkingConfiguration
campo, como en el siguiente formato:
{ "chunkingStrategy": "FIXED_SIZE", "fixedSizeChunkingConfiguration": { "maxTokens": number, "overlapPercentage": number } }
Para dividir cada documento de la fuente de datos en dos niveles, donde la segunda capa contenga fragmentos más pequeños derivados de la primera capa, especifique HIERARCHICAL
el chunkingStrategy
campo ChunkingConfiguration
e inclúyalo, como en el siguiente formato: hierarchicalChunkingConfiguration
{ "chunkingStrategy": "HIERARCHICAL", "hierarchicalChunkingConfiguration": { "levelConfigurations": [{ "maxTokens": number }], "overlapTokens": number } }
Para dividir cada documento de la fuente de datos en partes que prioricen el significado semántico por encima de la estructura sintáctica, especifique SEMANTIC
el chunkingStrategy
campo ChunkingConfiguration
e inclúyalo, como en el semanticChunkingConfiguration
siguiente formato:
{ "chunkingStrategy": "SEMANTIC", "semanticChunkingConfiguration": { "breakpointPercentileThreshold": number, "bufferSize": number, "maxTokens": number } }
Utilice una función Lambda durante la ingestión
Puede postprocesar la forma en que se escriben los fragmentos de origen de sus datos en el almacén de vectores con una función Lambda de las siguientes maneras:
-
Incluye una lógica de fragmentación para proporcionar una estrategia de fragmentación personalizada.
-
Incluya la lógica para especificar los metadatos a nivel de fragmento.
Para obtener más información sobre cómo escribir una función Lambda personalizada para su ingestión, consulte. Utilice una función Lambda de transformación personalizada para definir cómo se ingieren los datos En el AWS Management Console , elige la función Lambda al conectarse a una fuente de datos. Con la API de Amazon Bedrock, debe incluir un CustomTransformationConfigurationen el CustomTransformationConfiguration
campo VectorIngestionConfigurationy especificar el ARN de la Lambda, con el siguiente formato:
{ "transformations": [{ "transformationFunction": { "transformationLambdaConfiguration": { "lambdaArn": "string" } }, "stepToApply": "POST_CHUNKING" }], "intermediateStorage": { "s3Location": { "uri": "string" } } }
También especifique la ubicación S3 en la que se almacenará la salida después de aplicar la función Lambda.
Puede incluir el chunkingConfiguration
campo para aplicar la función Lambda después de aplicar una de las opciones de fragmentación que ofrece Amazon Bedrock.