As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Transformando dados em uma base de conhecimento
Para criar uma base de conhecimento, conecte-se a uma fonte de dados compatível que você deseja que sua base de conhecimento possa acessar. Sua base de conhecimento poderá responder às consultas dos usuários ou gerar respostas com base nos dados recuperados.
O Amazon Bedrock Knowledge Bases oferece suporte a uma variedade de documentos, incluindo texto, imagens ou documentos multimodais que contêm tabelas, gráficos, diagramas e outras imagens. Dados multimodais se referem a uma combinação de texto e dados visuais. Exemplos de tipos de arquivo que contêm dados não estruturados são texto, markdown HTML e. PDFs
As seções a seguir descrevem os tipos de dados que o Amazon Bedrock Knowledge Bases suporta e os serviços aos quais você pode conectar sua base de conhecimento para cada tipo de dado:
Dados não estruturados
Dados não estruturados se referem a dados que não são forçados a entrar em uma estrutura predefinida. O Amazon Bedrock Knowledge Bases oferece suporte à conexão com os seguintes serviços para adicionar dados não estruturados à sua base de conhecimento:
Amazon S3
Confluence (pré-visualização)
Microsoft SharePoint (pré-visualização)
Salesforce (pré-visualização)
Web Crawler (pré-visualização)
Fonte de dados personalizada (permite a ingestão direta de dados em bases de conhecimento sem precisar sincronizar)
Uma fonte de dados contém a forma bruta dos seus documentos. Para otimizar o processo de consulta, uma base de conhecimento converte seus dados brutos em incorporações vetoriais, uma representação numérica dos dados, para quantificar a semelhança com consultas que também são convertidas em incorporações vetoriais. O Amazon Bedrock Knowledge Bases usa os seguintes recursos no processo de conversão da sua fonte de dados:
-
Modelo de incorporação — Um modelo básico que converte seus dados em incorporações vetoriais.
-
Armazenamento vetorial — Um serviço que armazena a representação vetorial dos seus dados. Os seguintes armazenamentos de vetores são compatíveis:
-
Amazon sem OpenSearch servidor
-
Amazon Neptune
-
Amazon Aurora () RDS
-
Pinecone
-
Redis Enterprise Cloud
-
MongoDB Atlas
-
O processo de conversão dos dados em incorporações vetoriais é chamado de ingestão. O processo de ingestão que transforma seus dados em uma base de conhecimento envolve as seguintes etapas:
Ingestão
-
Os dados são analisados pelo analisador escolhido. Para obter mais informações sobre análise, consulteOpções de análise para sua fonte de dados.
-
Cada documento em sua fonte de dados é dividido em partes, subdivisões dos dados que podem ser definidas pelo número de tokens e outros parâmetros. Para obter mais informações sobre fragmentação, consulte. Como a fragmentação de conteúdo funciona para bases de conhecimento
-
Seu modelo de incorporação escolhido converte os dados em incorporações vetoriais.
-
As incorporações vetoriais são gravadas em um índice vetorial no armazenamento de vetores escolhido.
Depois que o processo de ingestão for concluído, sua base de conhecimento estará pronta para ser consultada. Para obter informações sobre como consultar e recuperar informações da sua base de conhecimento, consulteRecuperação de informações de fontes de dados usando as bases de conhecimento Amazon Bedrock.
Se você fizer alterações em uma fonte de dados, deverá sincronizar as alterações para incluir adições, modificações e exclusões na base de conhecimento. Algumas fontes de dados oferecem suporte à ingestão ou exclusão direta de arquivos na base de conhecimento, eliminando a necessidade de tratar a modificação e a ingestão da fonte de dados como etapas separadas e a necessidade de sempre realizar sincronizações completas. Para saber como ingerir documentos diretamente em sua base de conhecimento e nas fontes de dados que a suportam, consulteIngira mudanças diretamente em uma base de conhecimento.
As bases de conhecimento Amazon Bedrock oferecem várias opções para personalizar a forma como seus dados são ingeridos. Para obter mais informações sobre a personalização desse processo, consultePersonalizando sua base de conhecimento.
Dados estruturados
Dados estruturados se referem a dados tabulares em um formato predefinido pelo armazenamento de dados em que eles existem. O Amazon Bedrock Knowledge Bases se conecta a armazenamentos de dados estruturados compatíveis por meio do mecanismo de consulta Amazon Redshift. O Amazon Bedrock Knowledge Bases fornece um mecanismo totalmente gerenciado que analisa padrões de consulta, histórico de consultas e metadados de esquema para converter consultas de linguagem natural em consultas. SQL Essas consultas convertidas são então usadas para recuperar informações relevantes de fontes de dados compatíveis.
O Amazon Bedrock Knowledge Bases oferece suporte à conexão com os seguintes serviços para adicionar armazenamentos de dados estruturados à sua base de conhecimento:
Amazon Redshift
AWS Glue Data Catalog (AWS Lake Formation)
Se você conectar sua base de conhecimento a um armazenamento de dados estruturado, não precisará converter os dados em incorporações vetoriais. Em vez disso, o Amazon Bedrock Knowledge Bases pode consultar diretamente o armazenamento de dados estruturado. Durante a consulta, as Bases de Conhecimento Amazon Bedrock podem converter SQL consultas de usuários em consultas para recuperar dados relevantes para a consulta do usuário e gerar respostas mais precisas. Você também pode gerar SQL consultas sem recuperar dados e usá-las em outros fluxos de trabalho.
Como exemplo, um repositório de banco de dados contém a tabela a seguir com informações sobre clientes e suas compras:
ID da do cliente | Quantidade comprada em 2020 | Quantidade comprada em 2021 | Quantidade comprada em 2022 | Valor total comprado até o momento |
---|---|---|---|---|
1 | 200 | 300 | 500 | 1000 |
2 | 150 | 100 | 120 | 370 |
3 | 300 | 300 | 300 | 900 |
4 | 720 | 180 | 100 | 900 |
5 | 500 | 400 | 100 | 1000 |
6 | 900 | 800 | 1000 | 2700 |
7 | 470 | 420 | 400 | 1290 |
8 | 250 | 280 | 250 | 780 |
9 | 620 | 830 | 740 | 2190 |
10 | 300 | 200 | 300 | 800 |
Se uma consulta do usuário disser “forneça um resumo dos 5 clientes que mais gastam”, a base de conhecimento pode fazer o seguinte:
-
Converta a consulta em uma SQL consulta.
-
Retorne um trecho da tabela que contém o seguinte:
-
Colunas relevantes da tabela “ID do cliente” e “Valor total comprado até o momento”
-
Linhas da tabela contendo o valor total da compra para os 10 clientes que mais gastam
-
-
Gere uma resposta que indique quais clientes foram os 5 clientes que mais gastaram e quanto eles compraram.
Outros exemplos de consultas para as quais uma base de conhecimento pode gerar um trecho de tabela incluem:
-
“os 5 principais clientes em gastos em 2020"
-
“principal cliente por valor da compra em 2020"
-
“5 principais clientes por valor da compra de 2020-2022"
-
“os 5 clientes com maiores gastos em 2020-2022"
-
“clientes com valor total de compra inferior a $10"
-
“os 5 clientes com gastos mais baixos”
Quanto mais específica ou detalhada for uma consulta, mais a base de conhecimento poderá restringir as informações exatas a serem retornadas. Por exemplo, em vez da consulta “os 10 principais clientes por gastos em 2020", uma consulta mais específica é “encontre os 10 maiores valores totais comprados até o momento para clientes em 2020". A consulta específica se refere ao nome da coluna “Valor total comprado até o momento” na tabela do banco de dados de gastos dos clientes e também indica que os dados devem ser classificados por “maior”.