Implemente um plano de vetorização de dados de streaming - Amazon Managed Streaming for Apache Kafka

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Implemente um plano de vetorização de dados de streaming

Este tópico descreve como implantar um esquema de vetorização de dados de streaming.

Implemente um plano de vetorização de dados de streaming
  1. Certifique-se de que os seguintes recursos estejam configurados corretamente:

    1. Cluster MSK provisionado ou sem servidor com um ou mais tópicos contendo dados.

  2. Configuração Bedrock: Acesso ao modelo Bedrock desejado. Os modelos Bedrock atualmente suportados são:

    • Amazon Titan Embeddings G1 - Text

    • Incorporador de Texto do Amazon Titan v2

    • Amazon Titan Multimodal Embeddings G1

    • Cohere Embed English

    • Cohere Embed Multilíngue

  3. AWS OpenSearch coleção:

    • Você pode usar uma coleção de serviços provisionados ou sem servidor OpenSearch .

    • A coleção OpenSearch de serviços deve ter pelo menos um índice.

    • Se você planeja usar uma coleção OpenSearch sem servidor, certifique-se de criar uma coleção de pesquisa vetorial. Para obter detalhes sobre como configurar um índice vetorial, consulte Pré-requisitos para seu próprio armazenamento de vetores para uma base de conhecimento. Para saber mais sobre vetorização, consulte a explicação dos recursos do banco de dados vetoriais do Amazon OpenSearch Service.

      nota

      Ao criar um índice vetorial, você deve usar o nome do campo vetorialembedded_data.

    • Se você planeja usar uma coleção OpenSearch provisionada, você precisa adicionar a função do aplicativo MSF (que contém a política de acesso do Opensearch) que foi criada pelo blueprint, como usuário principal à sua coleção. OpenSearch Além disso, confirme se a política de acesso em OpenSearch está definida como “Permitir” ações. Isso é necessário para permitir um controle de acesso refinado.

    • Opcionalmente, você pode ativar o acesso ao OpenSearch painel para visualizar os resultados. Consulte para habilitar o controle de acesso refinado.

  4. Faça login usando uma função que permite aws: CreateStack permissões.

  5. Acesse o painel do console do MSF e selecione Criar aplicativo de streaming.

  6. Em Escolha um método para configurar o aplicativo de processamento de stream, selecione Usar um Blueprint.

  7. Selecione Plano de aplicativo de IA em tempo real no menu suspenso Planos.

  8. Forneça as configurações desejadas. Consulte Crie configurações de página.

  9. Selecione Implantar Blueprint para iniciar uma CloudFormation implantação.

  10. Quando a CloudFormation implantação estiver concluída, acesse o aplicativo Flink implantado. Verifique as propriedades de tempo de execução do aplicativo.

  11. Você pode optar por alterar/adicionar propriedades de tempo de execução ao seu aplicativo. Consulte Configuração de propriedades de tempo de execução para obter detalhes sobre como configurar essas propriedades.

    nota

    Nota:

    Se você estiver usando OpenSearch provisioned, certifique-se de habilitar o controle de acesso refinado.

    Se seu cluster provisionado for privado, adicione-o https:// à URL do endpoint da VPC OpenSearch provisionada e altere sink.os.endpoint para apontar para esse endpoint.

    Se seu cluster provisionado for público, certifique-se de que seu aplicativo MSF possa acessar a Internet. Para obter mais informações, consulte >>>>>> express-brokers-publication-merge type="documentation” url="managed- flink/latest/java/vpc -internet.html ">Acesso à Internet e aos serviços de um serviço gerenciado conectado à VPC para o aplicativo Apache Flink.

  12. Quando estiver satisfeito com todas as configurações, selecioneRun. O aplicativo começará a ser executado.

  13. Bombeie mensagens em seu cluster MSK.

  14. Navegue até o cluster do Opensearch e acesse o OpenSearch painel.

  15. No painel, selecione Descobrir no menu à esquerda. Você deve ver documentos persistentes junto com suas incorporações vetoriais.

  16. Consulte Trabalhando com coleções de pesquisa vetorial para ver como você pode usar os vetores armazenados no índice.

Crie configurações de página

Este tópico descreve a criação de configurações de página a serem consultadas ao especificar configurações para blueprints de aplicativos de IA em tempo real.

Nome da aplicação

Campo existente no MSF, dê qualquer nome ao seu aplicativo.

Cluster do MSK

Selecione o cluster MSK que você criou durante a configuração na lista suspensa.

Tópicos

Adicione o nome do (s) tópico (s) que você criou na configuração.

Tipo de dados do fluxo de entrada

Escolha String se você fornecer entrada de string para o fluxo MSK.

Escolha JSON se a entrada no fluxo MSK for JSON. Em chaves JSON incorporadas, escreva os nomes dos campos em seu JSON de entrada cujo valor você deseja enviar ao Bedrock para gerar incorporações.

Modelo de incorporação Bedrock

Selecione um na lista. Certifique-se de ter acesso ao modelo escolhido, caso contrário, a pilha poderá falhar. Consulte Adicionar ou remover o acesso aos modelos da Amazon Bedrock Foundation.

OpenSearch agrupamento

Selecione o cluster que você criou no menu suspenso.

OpenSearch nome do índice vetorial

Selecione o índice vetorial que você criou na etapa acima.