Pré-requisitos para sua própria loja de vetores para uma base de conhecimento - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Pré-requisitos para sua própria loja de vetores para uma base de conhecimento

Um armazenamento de vetores contém a representação de incorporações vetoriais de seus dados. O texto é convertido em incorporações vetoriais e gravado em um índice vetorial, mantendo um mapeamento para o documento original. As incorporações vetoriais permitem que os textos sejam comparados matematicamente.

Se você preferir que o Amazon Bedrock crie automaticamente um índice vetorial no Amazon OpenSearch Serverless para você, ignore esse pré-requisito e prossiga até. Crie uma base de conhecimento Amazon Bedrock

Você pode configurar seu próprio armazenamento vetorial compatível para indexar a representação de incorporações vetoriais de seus dados. Você cria campos para os seguintes dados:

  • Um campo para os vetores gerados a partir do texto em sua fonte de dados pelo modelo de incorporação que você escolher.

  • Um campo para os trechos de texto extraídos dos arquivos na sua fonte de dados.

  • Campos para metadados de arquivos de origem que o Amazon Bedrock gerencia.

  • (Se você usa um banco de dados Amazon Aurora e deseja configurar a filtragem de metadados) Campos para metadados que você associa aos seus arquivos de origem. Se você planeja configurar a filtragem em outros repositórios de vetores, não precisa configurar esses campos para filtragem.

Você pode criptografar repositórios vetoriais de terceiros com uma KMS chave. Para obter mais informações, consulte Criptografia dos recursos da base de conhecimento.

Selecione a guia correspondente ao serviço de armazenamento de vetores que você usará para criar seu índice vetorial.

Amazon OpenSearch Serverless
  1. Para configurar permissões e criar uma coleção de pesquisa vetorial no Amazon OpenSearch Serverless no AWS Management Console, siga as etapas 1 e 2 em Trabalhando com coleções de pesquisa vetorial no Amazon OpenSearch Service Developer Guide. Observe as seguintes considerações ao configurar sua coleção:

    1. Dê à coleção um nome e uma descrição de sua escolha.

    2. Para tornar sua coleção privada, selecione Criação padrão na seção Segurança. Em seguida, na seção Configurações de acesso à rede, selecione VPCcomo Tipo de acesso e escolha um VPC endpoint. Para obter mais informações sobre como configurar um VPC endpoint para uma coleção Amazon OpenSearch Serverless, consulte Acessar o Amazon OpenSearch Serverless usando um endpoint de interface (AWS PrivateLink) no Amazon OpenSearch Service Developer Guide.

  2. Depois que a coleção for criada, anote a Coleção ARN para criar a base de conhecimento.

  3. No painel de navegação esquerdo, selecione Coleções em Sem servidor. Em seguida, selecione sua coleção de pesquisa vetorial.

  4. Selecione a guia Índices. Em seguida, escolha Criar índice vetorial.

  5. Na seção Detalhes do índice vetorial, insira um nome para seu índice no campo Nome do índice vetorial.

  6. Na seção Campos vetoriais, escolha Adicionar campo vetorial. O Amazon Bedrock armazena as incorporações vetoriais da sua fonte de dados nesse campo. Forneça as seguintes configurações:

    • Nome do campo vetorial — Forneça um nome para o campo (por exemplo,embeddings).

    • Motor — O mecanismo vetorial usado para pesquisa. Selecione faiss.

    • Dimensões: o número de dimensões no vetor. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter:

      Modelo Dimensões
      Titan Incorporações G1 - Texto 1.536
      Titan Incorporações V2 - Texto 1,024
      Cohere Embed Inglês 1,024
      Cohere Embed Multilíngue 1,024
    • Métrica de distância: a métrica usada para medir a semelhança entre vetores. Recomendamos usar Euclidean.

  7. Expanda a seção Gerenciamento de metadados e adicione dois campos para configurar o índice vetorial para armazenar metadados adicionais que uma base de conhecimento pode recuperar com vetores. A tabela a seguir descreve os campos e os valores a serem especificados para cada campo:

    Descrição do campo Campo de mapeamento Tipo de dados Filtrável
    O Amazon Bedrock fragmenta o texto bruto dos seus dados e armazena os fragmentos nesse campo. Nome de sua escolha (por exemplo,text) String Verdadeiro
    O Amazon Bedrock armazena metadados relacionados à sua base de conhecimento nesse campo. Nome de sua escolha (por exemplo,bedrock-metadata) String Falso
  8. Anote os nomes escolhidos para o nome do índice vetorial, o nome do campo vetorial e os nomes dos campos de mapeamento do gerenciamento de metadados para criar sua base de conhecimento. Em seguida, selecione Criar.

Depois que o índice vetorial for criado, você poderá continuar criando sua base de conhecimento. A tabela a seguir resume onde você inserirá cada informação que anotou.

Campo Campo correspondente na configuração da base de conhecimento (console) Campo correspondente na configuração da base de conhecimento (API) Descrição
Coleção ARN Coleção ARN coleção ARN O Amazon Resource Name (ARN) da coleção de pesquisa vetorial.
Nome do índice vetorial Nome do índice vetorial vectorIndexName O nome do índice vetorial.
Nome do campo vetorial Campo vetorial vectorField O nome do campo no qual armazenar incorporações vetoriais para suas fontes de dados.
Gerenciamento de metadados (primeiro campo de mapeamento) Campo de texto textField O nome do campo no qual armazenar o texto bruto de suas fontes de dados.
Gerenciamento de metadados (segundo campo de mapeamento) Campo de metadados gerenciado pelo Bedrock metadataField O nome do campo no qual armazenar os metadados gerenciados pelo Amazon Bedrock.

Para obter uma documentação mais detalhada sobre a configuração de um armazenamento vetorial no Amazon OpenSearch Serverless, consulte Como trabalhar com coleções de pesquisa vetorial no Amazon OpenSearch Service Developer Guide.

Amazon Aurora (RDS)
  1. Crie um cluster, esquema e tabela de banco de dados (DB) do Amazon Aurora seguindo as etapas em Usando o Aurora SQL Postgre como base de conhecimento. Ao criar a tabela, configure-a com as seguintes colunas e tipos de dados. Você pode usar nomes de colunas de sua preferência em vez dos listados na tabela a seguir. Anote os nomes de coluna escolhidos para poder fornecê-los durante a configuração da base de conhecimento.

    Nome da coluna Tipo de dados Campo correspondente na configuração da base de conhecimento (console) Campo correspondente na configuração da base de conhecimento (API) Descrição
    id UUIDchave primária Chave primária primaryKeyField Contém identificadores exclusivos para cada registro.
    incorporação Vetor Campo vetorial vectorField Contém as incorporações vetoriais das fontes de dados.
    blocos Texto Campo de texto textField Contém os fragmentos de texto bruto das fontes de dados.
    metadata JSON Campo de metadados gerenciado pelo Bedrock metadataField Contém os metadados necessários para realizar a atribuição da fonte e permitir a ingestão e a consulta de dados.
  2. (Opcional) Se você adicionou metadados aos seus arquivos para filtragem, também deverá criar uma coluna para cada atributo de metadados nos seus arquivos e especificar o tipo de dados (texto, número ou booleano). Por exemplo, se o atributo genre existir na sua fonte de dados, você adicionaria uma coluna chamada genre e especificaria text como o tipo de dados. Durante a ingestão de dados, essas colunas serão preenchidas com os valores dos atributos correspondentes.

  3. Configurar um AWS Secrets Manager segredo para seu cluster de banco de dados Aurora seguindo as etapas em Gerenciamento de senhas com o Amazon Aurora e AWS Secrets Manager.

  4. Anote as informações a seguir depois de criar o cluster de banco de dados e configurar o segredo.

    Campo na configuração da base de conhecimento (console) Campo na configuração da base de conhecimento (API) Descrição
    Cluster de banco de dados Amazon Aurora ARN resourceArn O ARN do seu cluster de banco de dados.
    Database name databaseName O nome do banco de dados.
    Nome da tabela tableName O nome da tabela no cluster de banco de dados.
    Segredo ARN credentialsSecretArn O ARN do AWS Secrets Manager chave para seu cluster de banco de dados
Pinecone
nota

Se você usa Pinecone, você concorda em autorizar AWS para acessar a fonte terceirizada designada em seu nome, a fim de fornecer serviços de armazenamento de vetores para você. Você é responsável por cumprir todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.

Para obter documentação detalhada sobre como configurar um armazenamento de vetores em Pinecone, veja o Pinecone como uma base de conhecimento para o Amazon Bedrock.

Durante a configuração do armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:

  • Cadeia de conexão — O endpoint URL da sua página de gerenciamento de índices.

  • Namespace — (Opcional) O namespace a ser usado para gravar novos dados em seu banco de dados. Para obter mais informações, consulte Usando namespaces.

Há configurações adicionais que você deve fornecer ao criar um Pinecone índice:

  • Nome: o nome do índice vetorial. Selecione qualquer nome válido de sua escolha. Posteriormente, ao criar sua base de conhecimento, insira o nome escolhido no campo Nome do índice vetorial.

  • Dimensões: o número de dimensões no vetor. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter.

    Modelo Dimensões
    Titan Incorporações G1 - Texto 1.536
    Titan Incorporações V2 - Texto 1,024
    Cohere Embed Inglês 1,024
    Cohere Embed Multilíngue 1,024
  • Métrica de distância: a métrica usada para medir a semelhança entre vetores. Recomendamos que você experimente métricas diferentes para seu caso de uso. Recomendamos começar com a similaridade do cosseno.

Para acessar seu Pinecone índice, você deve fornecer seu Pinecone APIchave para o Amazon Bedrock por meio do AWS Secrets Manager.

Para configurar um segredo para seu Pinecone configuration
  1. Siga as etapas em Criar um AWS Secrets Manager segredo, definindo a chave como apiKey e o valor como a API chave para acessar sua Pinecone índice.

  2. Para encontrar sua API chave, abra o console Pinecone e selecione API Chaves.

  3. Depois de criar o segredo, anote ARN a KMS chave.

  4. Anexe permissões à sua função de serviço para descriptografar ARN a KMS chave seguindo as etapas em. Permissões para descriptografar um AWS Secrets Manager segredo para o armazenamento de vetores que contém sua base de conhecimento

  5. Posteriormente, ao criar sua base de conhecimento, insira o ARN ARN campo Credenciais secretas.

Redis Enterprise Cloud
nota

Se você usa Redis Enterprise Cloud, você concorda em autorizar AWS para acessar a fonte terceirizada designada em seu nome, a fim de fornecer serviços de armazenamento de vetores para você. Você é responsável por cumprir todos os termos de terceiros aplicáveis ao uso e transferência de dados do serviço de terceiros.

Para obter documentação detalhada sobre como configurar um armazenamento de vetores em Redis Enterprise Cloud, consulte Integração Redis Enterprise Cloud com o Amazon Bedrock.

Durante a configuração do armazenamento de vetores, anote as seguintes informações, que você preencherá ao criar uma base de conhecimento:

  • Endpoint URL — O endpoint público do seu banco URL de dados.

  • Nome do índice vetorial — O nome do índice vetorial do seu banco de dados.

  • Campo vetorial — O nome do campo em que as incorporações vetoriais serão armazenadas. Consulte a tabela a seguir para determinar quantas dimensões o vetor deve conter.

    Modelo Dimensões
    Titan Incorporações G1 - Texto 1.536
    Titan Incorporações V2 - Texto 1,024
    Cohere Embed Inglês 1,024
    Cohere Embed Multilíngue 1,024
  • Campo de texto — O nome do campo em que o Amazon Bedrock armazena os pedaços de texto bruto.

  • Campo de metadados gerenciado pelo Bedrock — O nome do campo em que o Amazon Bedrock armazena metadados relacionados à sua base de conhecimento.

Para acessar seu Redis Enterprise Cloud cluster, você deve fornecer seu Redis Enterprise Cloud configuração de segurança para o Amazon Bedrock por meio do AWS Secrets Manager.

Para configurar um segredo para seu Redis Enterprise Cloud configuration
  1. Habilite TLS o uso do seu banco de dados com o Amazon Bedrock seguindo as etapas em Transport Layer Security (TLS).

  2. Siga as etapas em Criar um AWS Secrets Manager segredo. Configure as seguintes chaves com os valores apropriados do seu Redis Enterprise Cloud configuração no segredo:

    • username— O nome de usuário para acessar seu Redis Enterprise Cloud banco de dados. Para encontrar seu nome de usuário, consulte a seção Segurança do seu banco de dados no Console do Redis.

    • password— A senha para acessar seu Redis Enterprise Cloud banco de dados. Para encontrar sua senha, consulte a seção Segurança do seu banco de dados no Console do Redis.

    • serverCertificate: o conteúdo do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.

    • clientPrivateKey: a chave privada do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.

    • clientCertificate: a chave pública do certificado da autoridade de certificação do Redis Cloud. Baixe o certificado do servidor no Console de administrador do Redis seguindo as etapas em Download certificates.

  3. Depois de criar o segredo, anote-oARN. Posteriormente, ao criar sua base de conhecimento, insira o ARN ARN campo Credenciais secretas.

MongoDB Atlas
nota

Se você usa o MongoDB Atlas, você concorda em autorizar AWS para acessar a fonte terceirizada designada em seu nome, a fim de fornecer serviços de armazenamento de vetores para você. Você é responsável por cumprir todos os termos de terceiros aplicáveis ao uso e à transferência de dados do serviço de terceiros.

Para obter documentação detalhada sobre como configurar um armazenamento vetorial no MongoDB Atlas, consulte MongoDB Atlas como base de conhecimento para o Amazon Bedrock.

Ao configurar o armazenamento vetorial, observe as seguintes informações que você adicionará ao criar uma base de conhecimento:

  • Endpoint URL — O endpoint URL do seu cluster MongoDB Atlas.

  • Nome do banco de dados — O nome do banco de dados em seu cluster MongoDB Atlas.

  • Nome da coleção — O nome da coleção em seu banco de dados.

  • Credenciais secretas ARN — O Amazon Resource Name (ARN) do segredo que você criou no AWS Secrets Manager que contém o nome de usuário e a senha de um usuário do banco de dados em seu cluster MongoDB Atlas.

  • (Opcional) KMS Chave gerenciada pelo cliente para seu segredo de credenciais ARN — se você criptografou seu segredo de credenciaisARN, forneça a chave KMS para que o Amazon Bedrock possa descriptografá-la.

Há configurações adicionais para mapeamento de campo que você deve fornecer ao criar um índice do MongoDB Atlas:

  • Nome do índice vetorial — O nome do MongoDB Atlas Vector Search Index em sua coleção.

  • Nome do campo vetorial — O nome do campo no qual o Amazon Bedrock deve armazenar incorporações vetoriais.

  • Nome do campo de texto — O nome do campo no qual o Amazon Bedrock deve armazenar o texto bruto.

  • Nome do campo de metadados — O nome do campo no qual o Amazon Bedrock deve armazenar os metadados de atribuição de origem.

(Opcional) Para que o Amazon Bedrock se conecte ao seu cluster MongoDB Atlas AWS PrivateLink, consulte RAGFluxo de trabalho com o MongoDB Atlas usando o Amazon Bedrock.