Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Para crear una base de conocimientos, conéctese a una fuente de datos compatible a la que desee que pueda acceder su base de conocimientos. Su base de conocimientos podrá responder a las consultas de los usuarios o generar respuestas en función de los datos recuperados.
Las bases de conocimiento de Amazon Bedrock admiten una variedad de documentos, incluidos textos, imágenes o documentos multimodales que contienen tablas, gráficos, diagramas y otras imágenes. Los datos multimodales se refieren a una combinación de texto y datos visuales. Algunos ejemplos de tipos de archivos que contienen datos no estructurados son texto, markdown, HTML y. PDFs
En las siguientes secciones se describen los tipos de datos que admite Amazon Bedrock Knowledge Bases y los servicios a los que puede conectar su base de conocimientos para cada tipo de datos:
Datos no estructurados
Los datos no estructurados se refieren a los datos que no están forzados a formar parte de una estructura predefinida. Las bases de conocimiento de Amazon Bedrock permiten conectarse a los siguientes servicios para añadir datos no estructurados a su base de conocimientos:
Amazon S3
Confluence (vista previa)
Microsoft SharePoint (vista previa)
Salesforce (vista previa)
Web Crawler (vista previa)
Fuente de datos personalizada (permite la ingesta directa de datos en las bases de conocimiento sin necesidad de sincronizarlos)
Una fuente de datos contiene el formato original de sus documentos. Para optimizar el proceso de consulta, una base de conocimientos convierte los datos sin procesar en incrustaciones vectoriales, una representación numérica de los datos, para cuantificar la similitud con las consultas que también se convierten en incrustaciones vectoriales. Amazon Bedrock Knowledge Bases utiliza los siguientes recursos en el proceso de conversión de la fuente de datos:
-
Modelo de incrustación: un modelo básico que convierte los datos en incrustaciones vectoriales.
-
Almacén vectorial: servicio que almacena la representación vectorial de los datos. Se admiten los siguientes almacenes vectoriales:
-
Amazon OpenSearch Serverless
-
Amazon Neptune
-
Amazon Aurora (RDS)
-
Pinecone
-
Redis Enterprise Cloud
-
MongoDB Atlas
-
El proceso de convertir los datos en incrustaciones vectoriales se denomina ingestión. El proceso de ingesta que convierte los datos en una base de conocimientos consta de los siguientes pasos:
Ingesta
-
El analizador que elija analiza los datos. Para obtener más información sobre el análisis, consulte. Opciones de análisis para su fuente de datos
-
Cada documento de la fuente de datos se divide en fragmentos, subdivisiones de los datos que se pueden definir mediante el número de fichas y otros parámetros. Para obtener más información sobre la fragmentación, consulte. Cómo funciona la fragmentación de contenido para las bases de conocimiento
-
El modelo de incrustación elegido convierte los datos en incrustaciones vectoriales.
-
Las incrustaciones vectoriales se escriben en un índice vectorial del almacén vectorial que elija.
Una vez finalizado el proceso de ingestión, su base de conocimientos estará lista para ser consultada. Para obtener información sobre cómo consultar y recuperar información de la base de conocimientos, consulte. Recuperación de información de fuentes de datos mediante las bases de conocimiento de Amazon Bedrock
Si realiza cambios en una fuente de datos, debe sincronizarlos para incorporar las adiciones, modificaciones y eliminaciones a la base de conocimientos. Algunas fuentes de datos admiten la ingesta o eliminación directa de archivos de la base de conocimientos, lo que elimina la necesidad de tratar la modificación y la ingesta de fuentes de datos como pasos separados y la necesidad de realizar siempre sincronizaciones completas. Para obtener información sobre cómo incorporar documentos directamente a su base de conocimientos y a las fuentes de datos que la respaldan, consulte. Incorpore los cambios directamente en una base de conocimientos
Las bases de conocimiento de Amazon Bedrock ofrecen varias opciones para personalizar la forma en que se ingieren los datos. Para obtener más información sobre la personalización de este proceso, consulte. Personalización de la base de conocimientos
Datos estructurados
Los datos estructurados se refieren a datos tabulares en un formato predefinido por el almacén de datos en el que se encuentran. Las bases de conocimiento de Amazon Bedrock se conectan a los almacenes de datos estructurados compatibles mediante el motor de consultas Amazon Redshift. Las bases de conocimiento de Amazon Bedrock proporcionan un mecanismo totalmente administrado que analiza los patrones de consulta, el historial de consultas y los metadatos del esquema para convertir las consultas en lenguaje natural en consultas SQL. Estas consultas convertidas se utilizan luego para recuperar la información relevante de las fuentes de datos compatibles.
Las bases de conocimiento de Amazon Bedrock permiten conectarse a los siguientes servicios para añadir almacenes de datos estructurados a su base de conocimientos:
Amazon Redshift
AWS Glue Data Catalog (AWS Lake Formation)
Si conecta su base de conocimientos a un almacén de datos estructurado, no necesita convertir los datos en incrustaciones vectoriales. En su lugar, las bases de conocimiento de Amazon Bedrock pueden consultar directamente el almacén de datos estructurados. Durante la consulta, las bases de conocimiento de Amazon Bedrock pueden convertir las consultas de los usuarios en consultas SQL para recuperar los datos relevantes para la consulta del usuario y generar respuestas más precisas. También puede generar consultas SQL sin recuperar datos y utilizarlas en otros flujos de trabajo.
Por ejemplo, un repositorio de base de datos contiene la siguiente tabla con información sobre los clientes y sus compras:
ID de de cliente | Importe comprado en 2020 | Importe comprado en 2021 | Importe comprado en 2022 | Importe total comprado hasta la fecha |
---|---|---|---|---|
1 | 200 | 300 | 500 | 1 000 |
2 | 150 | 100 | 120 | 370 |
3 | 300 | 300 | 300 | 900 |
4 | 720 | 180 | 100 | 900 |
5 | 500 | 400 | 100 | 1 000 |
6 | 900 | 800 | 1 000 | 2700 |
7 | 470 | 420 | 400 | 1290 |
8 | 250 | 280 | 250 | 780 |
9 | 620 | 830 | 740 | 2190 |
10 | 300 | 200 | 300 | 800 |
Si la consulta de un usuario dice «envíeme un resumen de los 5 clientes que más gastan», la base de conocimientos puede hacer lo siguiente:
-
Convierte la consulta en una consulta SQL.
-
Devuelve un extracto de la tabla que contiene lo siguiente:
-
Columnas relevantes de la tabla: «ID de cliente» y «Importe total comprado hasta la fecha»
-
Filas de la tabla que contienen el importe total de compra de los 10 clientes que más gastan
-
-
Genera una respuesta que indique qué clientes fueron los 5 que más gastaron y cuánto compraron.
Otros ejemplos de consultas para las que una base de conocimientos puede generar un extracto de una tabla son:
-
«Los 5 clientes que más gastaron en 2020"
-
«cliente principal por importe de compra en 2020"
-
«los 5 principales clientes por importe de compra entre 2020 y 2022"
-
«los 5 clientes que más gastaron en 2020-2022"
-
«clientes con un importe total de compra inferior a 10$»
-
«los 5 clientes que menos gastan»
Cuanto más específica o detallada sea una consulta, más podrá acotar la base de conocimientos la información exacta que se va a devolver. Por ejemplo, en lugar de la consulta «los 10 clientes que más gastaron en 2020", una consulta más específica sería «buscar los 10 clientes con el importe total más alto comprado hasta la fecha en 2020». La consulta específica hace referencia al nombre de la columna «Importe total comprado hasta la fecha» de la tabla de la base de datos de gastos de los clientes y también indica que los datos deben ordenarse por «importe más alto».