Sincronización de los datos con la base de conocimientos de Amazon Bedrock

Tras crear la base de conocimientos, puede ingerir o sincronizar los datos para poder consultarlos. La ingesta convierte los datos sin procesar del origen de datos en incrustaciones vectoriales, según el modelo de incrustaciones vectoriales y las configuraciones que haya especificado.

Antes de iniciar la ingesta, compruebe que el origen de datos cumpla las siguientes condiciones:

Se ha configurado la información de conexión del origen de datos. Para configurar un conector de origen de datos para que rastree los datos del repositorio de orígenes de datos, consulte Conectores de orígenes de datos compatibles. Se ha configurado el origen de datos como parte de los pasos de creación de la base de conocimientos.
Se ha configurado el modelo de incrustación vectorial y el almacén vectorial elegidos. Consulte los modelos de incrustaciones vectoriales compatibles y los almacenes vectoriales para bases de conocimientos. Se han configurado las incrustaciones vectoriales como parte de los pasos de creación de la base de conocimientos.
Los archivos son del formato admitido. Para obtener más información, consulte Formatos de documentos admitidos.
Los archivos no deben superar el Tamaño del archivo de trabajo de ingesta especificado en los Amazon Bedrock endpoints and quotas en la Referencia general de AWS.
Si el origen de datos contiene archivos de metadatos, compruebe las siguientes condiciones para asegurarse de que no se omitan los archivos de metadatos:
- Cada archivo .metadata.json comparte el mismo nombre y extensión que el archivo de origen al que está asociado.
- Si el índice vectorial de su base de conocimientos se encuentra en un almacén vectorial de Amazon OpenSearch Serverless, compruebe que el índice vectorial esté configurado con el faiss motor. Si el índice vectorial está configurado con el motor nmslib, deberá realizar una de las siguientes acciones:
  - Cree una nueva base de conocimientos en la consola y deje que Amazon Bedrock cree automáticamente un índice vectorial en Amazon OpenSearch Serverless por usted.
  - Crear otro índice vectorial en el almacén vectorial y seleccionar faiss como el motor. A continuación, cree una nueva base de conocimientos y especifique el nuevo índice vectorial.
- Si el índice vectorial de la base de conocimientos se encuentra en un clúster de bases de datos de Amazon Aurora, compruebe que la tabla del índice contenga una columna para cada propiedad de metadatos de los archivos de metadatos antes de iniciar la ingesta.

Cada vez que añada, modifique o elimine archivos del origen de datos, debe sincronizar el origen de datos para volver a indexarlo en la base de conocimientos. La sincronización es incremental, por lo que Amazon Bedrock solo procesa los documentos añadidos, modificados o eliminados desde la última sincronización.

Para obtener información sobre cómo incorporar los datos a su base de conocimientos y sincronizarlos con los datos más recientes, elija la pestaña correspondiente al método que prefiera y, a continuación, siga estos pasos:

Console

Ingesta de los datos en la base de conocimientos y sincronización con los datos más actuales

Abra la consola Amazon Bedrock en https://console.aws.amazon.com/bedrock/.
En el panel de navegación izquierdo, seleccione Base de conocimientos y elija su base de conocimientos.
En la sección Origen de datos, seleccione Sincronizar para iniciar la ingesta de datos o para sincronizar con los datos más recientes. Para detener la sincronización actual de un origen de datos, seleccione Detener. Un origen de datos debe estar sincronizándose para poder detener la sincronización. Puede seleccionar Sincronizar para ingerir el resto de los datos.
Cuando se complete la ingesta de datos, aparecerá un banner verde de confirmación si se ha realizado correctamente.

nota
Una vez finalizada la sincronización de datos, es posible que las incrustaciones vectoriales de los datos recién sincronizados tarden unos minutos en reflejarse en su base de conocimientos y estar disponibles para realizar consultas si utiliza un almacén de vectores que no sea Amazon Aurora (). RDS
Puede elegir un origen de datos para ver su Historial de sincronización. Seleccione Ver advertencias para ver por qué ha fallado un trabajo de ingesta de datos.

API

Para incorporar sus datos a su base de conocimientos y sincronizarlos con los datos más recientes, envíe una StartIngestionJobsolicitud a un punto límite de tiempo de compilación de Agents for Amazon Bedrock. Especifique el knowledgeBaseId y el dataSourceId. También puede detener un trabajo de ingesta de datos que se esté ejecutando actualmente enviando una solicitud. StopIngestionJob Especifique los valores de dataSourceId, ingestionJobId y knowledgeBaseId. Debe haber un trabajo de ingesta de datos en ejecución para detener la ingesta de datos. Puede volver a enviar una solicitud StartIngestionJob para ingerir el resto de los datos cuando esté listo.

Utilice lo ingestionJobId devuelto en la respuesta de una GetIngestionJobsolicitud con un punto final de tiempo de compilación de Agents for Amazon Bedrock para realizar un seguimiento del estado del trabajo de ingestión. Además, especifique el knowledgeBaseId y el dataSourceId.

Cuando finalice el trabajo de ingesta, el status de la respuesta es COMPLETE.

nota
Una vez completada la ingesta de datos, las incrustaciones vectoriales de los datos recién ingeridos podrían tardar unos minutos en estar disponibles en el almacén de vectores para su consulta si utiliza un almacén de vectores distinto de Amazon Aurora (). RDS
El objeto statistics de la respuesta devuelve información sobre si la ingesta se realizó correctamente o no en el caso de los documentos del origen de datos.

También puede ver la información de todos los trabajos de ingestión de una fuente de datos enviando una ListIngestionJobssolicitud con un punto límite de tiempo de compilación de Agents for Amazon Bedrock. Especifique el dataSourceId y el knowledgeBaseId de la base de conocimientos desde los que se ingieren los datos.

Filtre los resultados especificando el estado que desee buscar en el objeto filters.
Puede ordenarlos por la hora en que se inició el trabajo o por el estado de un trabajo especificando el objeto sortBy. Puede especificar un orden ascendente o descendente.
Especifique el número máximo de resultados que se devuelven en una respuesta en el campo maxResults. Si hay más resultados que la cantidad que ha establecido, la respuesta devuelve un nextToken que puede enviar en otra solicitud ListIngestionJobs para ver el siguiente lote de trabajos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Configuraciones de seguridad para la base de conocimientos

Incorpore los cambios directamente a una base de conocimientos

Sincronización de los datos con la base de conocimientos de Amazon Bedrock

Ingesta de los datos en la base de conocimientos y sincronización con los datos más actuales

nota

nota