Pré-requisitos referentes ao seu armazenamento de vetores para uma base de conhecimento
Um armazenamento de vetores contém a representação das incorporações de vetores de seus dados. O texto é convertido em incorporações de vetores e gravados em um índice de vetores, mantendo uma correlação com o documento original. As incorporações de vetores permitem que os textos sejam comparados matematicamente.
Se preferir que o Amazon Bedrock crie automaticamente um índice de vetores no Amazon OpenSearch Sem Servidor para você, ignore esse pré-requisito e prossiga para Criar uma base de conhecimento do Amazon Bedrock.
É possível configurar seu próprio armazenamento de vetores compatível para indexar a representação de incorporações de vetores de seus dados. Crie campos para os seguintes dados:
-
Um campo para os vetores gerados do texto em sua fonte de dados pelo modelo de incorporação de sua escolha.
-
Um campo para os fragmentos de texto extraídos dos arquivos na fonte de dados.
-
Campos para metadados de arquivos de origem que o Amazon Bedrock gerencia.
-
(Se você usar um banco de dados do Amazon Aurora e desejar configurar a filtragem de metadados) Campos para metadados que você associa aos arquivos de origem. Se você planejar configurar a filtragem em outros armazenamentos de vetores, não precisará configurar esses campos para filtragem.
É possível criptografar armazenamentos de vetores de terceiros com uma chave do KMS. Para obter mais informações, consulte Criptografar recursos da base de conhecimento.
Selecione a guia correspondente ao serviço de armazenamento de vetores que você usará para criar o índice de vetores.
- Amazon OpenSearch Serverless
-
-
Para configurar permissões e criar uma coleção de pesquisa vetorial no Amazon OpenSearch Sem Servidor no AWS Management Console, siga as etapas 1 e 2 em Como trabalhar com coleções de pesquisa vetorial no Guia do desenvolvedor do Amazon OpenSearch Service. Observe as seguintes considerações ao configurar a coleção:
-
Forneça um nome e uma descrição de sua escolha à coleção.
-
Para tornar a coleção privada, selecione Criação padrão na seção Segurança. Na seção Configurações de acesso à rede, selecione VPC como o Tipo de acesso e escolha um endpoint da VPC. Para obter mais informações sobre como configurar um endpoint da VPC para uma coleção do Amazon OpenSearch Sem Servidor, consulte Acessar o Amazon OpenSearch Sem Servidor usando um endpoint de interface (AWS PrivateLink) no Guia do desenvolvedor do Amazon OpenSearch Service.
-
-
Depois que a coleção for criada, anote o ARN da coleção para uso ao criar a base de conhecimento.
-
No painel de navegação à esquerda, Coleções em Sem servidor. Selecione a sua coleção de pesquisa vetorial.
-
Selecione a guia Índices. Escolha Criar índice vetorial.
-
Na seção Detalhes do índice vetorial, insira um nome para o índice no campo Nome do índice vetorial.
-
Na seção Campos vetoriais, escolha Adicionar campo vetorial. O Amazon Bedrock armazena as incorporações de vetores da fonte de dados nesse campo. Forneça as seguintes configurações:
-
Nome do campo de vetor: forneça um nome para o campo (por exemplo,
embeddings
). -
Mecanismo: o mecanismo de vetores usado para pesquisa. Selecione faiss.
-
Dimensões: o número de dimensões no vetor. Consulte a seguinte tabela para determinar quantas dimensões o vetor deve conter:
Modelo Dimensões Incorporador do Titan G1 - Text 1.536 Incorporador do Titan v2 - Text 1.024 Embed da Cohere em inglês 1.024 Embed da Cohere multilíngue 1.024 -
Métrica de distância: a métrica usada para medir a semelhança entre vetores. Recomendamos usar Euclidiana.
-
-
Expanda a seção Gerenciamento de metadados e adicione dois campos para configurar o índice de vetores para armazenar metadados adicionais que a base de conhecimento pode recuperar com vetores. A seguinte tabela descreve os campos e os valores a serem especificados para cada campo:
Descrição do campo Mapeamento do campo Tipo de dados Filtráveis O Amazon Bedrock fragmenta o texto bruto nos dados e armazena os fragmentos nesse campo. Nome de sua escolha (por exemplo, text
)String Verdadeiro O Amazon Bedrock armazena metadados relacionados à base de conhecimento nesse campo. Nome de sua escolha (por exemplo, bedrock-metadata
)String Falso -
Anote os nomes que escolher para o nome do índice de vetores, o nome do campo vetorial e os nomes de campo de mapeamento do gerenciamento de metadados para criar a base de conhecimento. Escolha Criar.
Depois que o índice de vetores for criado, você poderá prosseguir com a criação da base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.
Campo Campo correspondente na configuração da base de conhecimento (Console) Campo correspondente na configuração da base de conhecimento (API) Descrição ARN da coleção ARN da coleção collectionARN O nome do recurso da Amazon (ARN) da coleção de pesquisa vetorial. Nome do índice de vetores Nome do índice de vetores vectorIndexName O nome do índice de vetores. Nome do campo de vetor Campo de vetor vectorField O nome do campo no qual armazenar incorporações de vetores das fontes de dados. Gerenciamento de metadados (primeiro campo de mapeamento) Campo de texto textField O nome do campo no qual armazenar o texto bruto das fontes de dados. Gerenciamento de metadados (segundo campo de mapeamento) Campo de metadados gerenciados pelo Bedrock metadataField O nome do campo no qual armazenar os metadados que o Amazon Bedrock gerencia. Para obter documentação detalhada sobre como configurar um armazenamento de vetores no Amazon OpenSearch Sem Servidor, consulte Como trabalhar com coleções de pesquisa vetorial no Guia do desenvolvedor do Amazon OpenSearch Service.
-
- Amazon Aurora (RDS)
-
-
Crie um cluster, um esquema e uma tabela de banco de dados (DB) do Amazon Aurora seguindo as etapas em Usar o Aurora PostgreSQL como a base de conhecimento. Ao criar a tabela, configure-a com as colunas e os tipos de dados a seguir. É possível usar nomes de colunas de sua preferência em vez dos listados na tabela acima. Anote os nomes das colunas escolhidos para poder fornecê-los durante a configuração da base de conhecimento.
Nome da coluna Tipo de dados Campo correspondente na configuração da base de conhecimento (Console) Campo correspondente na configuração da base de conhecimento (API) Descrição id Chave primária de UUID Chave primária primaryKeyField
Contém identificadores exclusivos para cada registro. incorporação Vetor Campo de vetor vectorField
Contém as incorporações de vetores das fontes de dados. fragmentos Texto Campo de texto textField
Contém os fragmentos de texto bruto das fontes de dados. metadados JSON Campo de metadados gerenciados pelo Bedrock metadataField
Contém os metadados necessários para realizar a atribuição da fonte e permitir a ingestão e a consulta de dados. -
(Opcional) Se você tiver adicionado metadados aos arquivos para filtragem, crie uma coluna para cada atributo de metadados nos arquivos e especifique o tipo de dados (texto, número ou booleano). Por exemplo, se o atributo
genre
existir na fonte de dados, você deve adicionar uma coluna chamadagenre
e especificartext
como o tipo de dados. Durante a ingestão de dados, essas colunas serão preenchidas com os valores dos atributos correspondentes. -
Configure um segredo do AWS Secrets Manager para o cluster de banco de dados do Aurora seguindo as etapas em Gerenciamento de senhas com o Amazon Aurora e o AWS Secrets Manager.
-
Anote as informações a seguir depois de criar o cluster de banco de dados e configurar o segredo.
Campo na configuração da base de conhecimento (console) Campo na configuração da base de conhecimento (API) Descrição ARN do cluster do banco de dados do Amazon Aurora resourceArn O ARN do cluster do banco de dados. Nome do banco de dados databaseName O nome do banco de dados Nome da tabela tableName O nome da tabela no cluster do banco de dados. ARN do segredo credentialsSecretArn O ARN da chave do AWS Secrets Manager para o cluster do banco de dados.
-
- Pinecone
-
nota
Ao usar o Pinecone, você concorda em autorizar a AWS a acessar a fonte de terceiros designada em seu nome para fornecer os serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.
Para obter a documentação detalhada sobre como configurar um armazenamento de vetores no Pinecone, consulte Pinecone como base de conhecimento do Amazon Bedrock
. Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:
-
String de conexão: o URL do endpoint da página de gerenciamento de índices.
-
Namespace: (opcional) o namespace a ser usado para gravar novos dados no banco de dados. Para obter mais informações, consulte Usar namespaces
.
Há configurações adicionais que você deve fornecer ao criar um índice do Pinecone:
-
Nome: o nome do índice de vetores. Selecione qualquer nome válido de sua escolha. Posteriormente, ao criar a base de conhecimento, insira o nome escolhido no campo Nome do índice de vetores.
-
Dimensões: o número de dimensões no vetor. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter.
Modelo Dimensões Incorporador do Titan G1 - Text 1.536 Incorporador do Titan v2 - Text 1.024 Embed da Cohere em inglês 1.024 Embed da Cohere multilíngue 1.024 -
Métrica de distância: a métrica usada para medir a semelhança entre vetores. É recomendável experimentar métricas diferentes para o caso de uso. É recomendável começar com a similaridade do cosseno.
Para acessar o índice do Pinecone, forneça a chave da API do Pinecone ao Amazon Bedrock por meio do AWS Secrets Manager.
Como configurar um segredo para a sua configuração do Pinecone
-
Siga as etapas em Criar um segredo do AWS Secrets Manager, definindo a chave como
apiKey
e o valor como a chave da API para acessar o índice do Pinecone. -
Para encontrar a chave de API, abra o Console do Pinecone
e selecione Chaves de API. -
Depois de criar o segredo, anote o ARN da chave do KMS.
-
Anexe permissões ao perfil de serviço para descriptografar o ARN da chave do KMS seguindo as etapas em Permissões para descriptografar um segredo do AWS Secrets Manager para o armazenamento de vetores que contém a base de conhecimento.
-
Posteriormente, ao criar a base de conhecimento, insira o ARN no campo ARN do segredo das credenciais.
-
- Redis Enterprise Cloud
-
nota
Ao usar o Redis Enterprise Cloud, você concorda em autorizar a AWS a acessar a fonte de terceiros designada em seu nome para fornecer os serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.
Para obter a documentação detalhada sobre como configurar um armazenamento de vetores no Redis Enterprise Cloud, consulte Integração do Redis Enterprise Cloud com o Amazon Bedrock
. Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:
-
URL do endpoint: o URL público do endpoint do banco de dados.
-
Nome do índice de vetores: o nome do índice de vetores do banco de dados.
-
Campo vetorial: o nome do campo em que as incorporações de vetores serão armazenadas. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter.
Modelo Dimensões Incorporador do Titan G1 - Text 1.536 Incorporador do Titan v2 - Text 1.024 Embed da Cohere em inglês 1.024 Embed da Cohere multilíngue 1.024 -
Campo de texto: o nome do campo em que o Amazon Bedrock armazena os fragmentos de texto bruto.
-
Campo de metadados gerenciado pelo Bedrock: o nome do campo em que o Amazon Bedrock armazena metadados relacionados à base de conhecimento.
Para acessar o cluster do Redis Enterprise Cloud, forneça a configuração de segurança do Redis Enterprise Cloud ao Amazon Bedrock por meio do AWS Secrets Manager.
Como configurar um segredo para a sua configuração do Redis Enterprise Cloud
-
Habilite o TLS para usar seu banco de dados com o Amazon Bedrock seguindo as etapas em Transport Layer Security (TLS)
. -
Siga as etapas em Criar um segredo do AWS Secrets Manager. Configure as seguintes chaves com os valores adequados da configuração do Redis Enterprise Cloud no segredo:
-
username
: o nome de usuário para acessar o banco de dados do Redis Enterprise Cloud. Para encontrar seu nome de usuário, consulte a seção Segurança do banco de dados no console do Redis. -
password
: a senha para acessar o banco de dados do Redis Enterprise Cloud. Para encontrar sua senha, consulte a seção Segurança do banco de dados no console do Redis. -
serverCertificate
: o conteúdo do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates. -
clientPrivateKey
: a chave privada do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates. -
clientCertificate
: a chave pública do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.
-
-
Depois de criar o segredo, anote o ARN dele. Posteriormente, ao criar a base de conhecimento, insira o ARN no campo ARN do segredo das credenciais.
-
- MongoDB Atlas
-
nota
Ao usar o MongoDB Atlas, você concorda em autorizar a AWS a acessar a fonte de terceiros designada em seu nome para fornecer os serviços de armazenamento de vetores a você. Você é responsável pela conformidade com todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.
Para obter documentação detalhada sobre como configurar um armazenamento de vetores no MongoDB Atlas, consulte o MongoDB Atlas como base de conhecimento para o Amazon Bedrock
. Ao configurar o armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:
-
URL do endpoint: o URL do endpoint do cluster do MongoDB Atlas.
-
Nome do banco de dados: o nome do banco de dados no cluster do MongoDB Atlas.
-
Nome da coleção: o nome da coleção no banco de dados.
-
ARN do segredo das credenciais: o nome do recurso da Amazon (ARN) do segredo que você criou no AWS Secrets Manager que contém o nome do usuário e a senha de banco de dados no cluster do MongoDB Atlas.
-
(Opcional) Chave do KMS gerenciada pelo cliente para o ARN do segredo das credenciais: se você tiver criptografado o ARN do segredo de suas credenciais, forneça a chave do KMS para que o Amazon Bedrock possa descriptografá-la.
Há configurações adicionais de Mapeamento de campos que você deve fornecer ao criar um índice do MongoDB Atlas:
-
Nome do índice de vetores: o nome do índice de pesquisa vetorial do MongoDB Atlas em sua coleção.
-
Nome do campo de vetor: o nome do campo no qual o Amazon Bedrock deve armazenar incorporações de vetores.
-
Nome do campo de texto: o nome do campo no qual o Amazon Bedrock deve armazenar o texto de fragmento bruto.
-
Nome do campo de metadados: o nome do campo no qual o Amazon Bedrock deve armazenar os metadados de atribuição de origem.
(Opcional) Para que o Amazon Bedrock se conecte ao cluster do MongoDB Atlas via AWS PrivateLink, consulte Fluxo de trabalho de RAG com o MongoDB Atlas usando o Amazon Bedrock.
-