Implementar um esquema de vetorização de dados de streaming

Este tópico descreve como implantar um esquema de vetorização de dados de streaming.

Implementar um esquema de vetorização de dados de streaming

Certifique-se de que os seguintes recursos estejam configurados corretamente:
1. Você deve ter um cluster sem servidor do MSK configurado com um ou mais tópicos contendo dados.
Configuração do Bedrock: acesso ao modelo desejado do Bedrock. Os modelos do Bedrock atualmente compatíveis são:
- Amazon Titan Embeddings G1 - Text
- Incorporador de Texto do Amazon Titan v2
- Amazon Titan Multimodal Embeddings G1
- Cohere Embed English
- Cohere Embed Multilíngue
AWS OpenSearch coleção:
- Você pode usar uma coleção de serviços provisionados ou sem servidor OpenSearch .
- A coleção OpenSearch de serviços deve ter pelo menos um índice.
- Se você planeja usar uma coleção OpenSearch sem servidor, certifique-se de criar uma coleção de pesquisa vetorial. Para obter detalhes sobre como configurar um índice vetorial, consulte Pré-requisitos para seu próprio armazenamento de vetores para uma base de conhecimento. Para saber mais sobre vetorização, consulte a explicação dos recursos do banco de dados vetoriais do Amazon OpenSearch Service.
  
  nota
  Ao criar um índice vetorial, você deve usar o nome de embedded_data do campo vetorial.
- Se você planeja usar uma coleção OpenSearch provisionada, você precisa adicionar a função do aplicativo MSF (que contém a política de acesso do Opensearch) que foi criada pelo blueprint, como usuário principal à sua coleção. OpenSearch Além disso, confirme se a política de acesso em OpenSearch está definida como “Permitir” ações. Isso é necessário para permitir um controle de acesso refinado.
- Opcionalmente, você pode ativar o acesso ao OpenSearch painel para visualizar os resultados. Consulte habilitar o controle de acesso refinado.
Faça login usando uma função que permite aws: CreateStack permissões.
Acesse o painel do console do MSF e selecione Criar aplicação de streaming.
Em Escolha um método para configurar a aplicação de processamento de stream, selecione Usar um esquema.
Selecione Esquema de aplicação de IA em tempo real no menu suspenso Esquemas.
Forneça as configurações desejadas. Consulte Criar configurações de página.
Selecione Implantar Blueprint para iniciar uma CloudFormation implantação.
Quando a CloudFormation implantação estiver concluída, acesse o aplicativo Flink implantado. Verifique as propriedades Runtime da aplicação.
Você pode escolher as propriedades change/add de execução do seu aplicativo. Consulte Configuração de propriedades Runtime para obter detalhes.

nota
Nota:
Se você estiver usando OpenSearch provisioned, certifique-se de habilitar o controle de acesso refinado.
Se seu cluster provisionado for privado, adicione-o https:// à URL do endpoint da VPC OpenSearch provisionada e altere sink.os.endpoint para apontar para esse endpoint.
Se seu cluster provisionado for público, certifique-se de que sua aplicação MSF possa acessar a Internet. Para obter mais informações, consulte >>>>>> express-brokers-publication-merge type="documentation” url="managed- flink/latest/java/vpc -internet.html ">Acesso à Internet e aos serviços de um serviço gerenciado conectado à VPC para o aplicativo Apache Flink.
Quando todas as configurações estiverem adequadas, selecione Run. A aplicação começará a ser executada.
Envie mensagens em seu cluster do MSK.
Navegue até o cluster do Opensearch e acesse o OpenSearch painel.
No painel, selecione Descobrir no menu à esquerda. Você deve ver documentos persistentes junto com suas incorporações vetoriais.
Consulte Trabalhando com coletas de pesquisa vetorial para ver como você pode usar os vetores armazenados no índice.

Criar configurações de página

Este tópico descreve a criação de configurações de página a serem consultadas ao especificar configurações para esquemas de aplicações de IA em tempo real.

Nome da aplicação

Campo existente no MSF, dê um nome à sua aplicação.

Cluster do MSK

Selecione na lista suspensa o cluster no qual você criará seu serviço.

Tópicos

Adicione o nome do(s) tópico(s) que você criou na configuração.

Tipo de dados do fluxo de entrada

Escolha Cadeia de caracteres se você fornecer entrada de cadeias de caracteres para o fluxo do MSK.

Escolha JSON se a entrada no fluxo do MSK for JSON. Em Chaves incorporadas do JSON, escreva em seu JSON de entrada os nomes dos campos cujo valor você deseja enviar ao Bedrock para gerar incorporações.

Modelo de incorporação do Bedrock

Selecione um na lista. Certifique-se de ter acesso ao modelo escolhido, caso contrário, a pilha poderá falhar. Consulte Adicionar ou remover o acesso aos modelos de base do Amazon Bedrock.

OpenSearch agrupamento

Selecione o cluster que você criou no menu suspenso.

OpenSearch nome do índice vetorial

Selecione o índice vetorial que você criou na etapa acima.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Notas antes de ativar os esquemas de incorporação vetorial em tempo real

Quota

Implementar um esquema de vetorização de dados de streaming

Implementar um esquema de vetorização de dados de streaming

nota

nota

Criar configurações de página