Déployez un plan de vectorisation des données en streaming - Amazon Managed Streaming for Apache Kafka

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Déployez un plan de vectorisation des données en streaming

Cette rubrique décrit comment déployer un plan de vectorisation de données en streaming.

Déployez un plan de vectorisation des données en streaming
  1. Assurez-vous que les ressources suivantes sont correctement configurées :

    1. MSKCluster provisionné ou sans serveur avec une ou plusieurs rubriques contenant des données.

  2. Configuration de Bedrock : Accès au modèle de Bedrock souhaité. Les modèles Bedrock actuellement pris en charge sont les suivants :

    • Amazon Titan Embeddings G1 – Text

    • Amazon Titan Text Embeddings V2

    • Amazon Titan Multimodal Embeddings G1

    • Cohere Embed English

    • Cohere Embed Multilingual

  3. AWS OpenSearch collection :

    • Vous pouvez utiliser une collection de OpenSearch services provisionnés ou sans serveur.

    • La collection OpenSearch Service doit comporter au moins un index.

    • Si vous envisagez d'utiliser une collection OpenSearch sans serveur, veillez à créer une collection de recherche vectorielle. Pour plus de détails sur la configuration d'un index vectoriel, consultez la section Conditions requises pour votre propre magasin de vecteurs pour une base de connaissances. Pour en savoir plus sur la vectorisation, consultez l'explication des fonctionnalités de la base de données vectorielle d'Amazon OpenSearch Service.

      Note

      Lorsque vous créez un index vectoriel, vous devez utiliser le nom du champ vectorielembedded_data.

    • Si vous envisagez d'utiliser une collection OpenSearch provisionnée, vous devez ajouter le rôle d'MSFapplication (qui contient la politique d'accès Opensearch) créé par le plan, en tant qu'utilisateur principal de votre collection. OpenSearch Vérifiez également que la politique d'accès OpenSearch est définie sur « Autoriser » les actions. Cela est nécessaire pour permettre le contrôle d'accès aux grains fins.

    • Vous pouvez éventuellement activer l'accès au OpenSearch tableau de bord pour afficher les résultats. Reportez-vous à la section Activer le contrôle d'accès à grain fin.

  4. Connectez-vous en utilisant un rôle qui autorise aws : CreateStack autorisations.

  5. Accédez au tableau de bord de la MSF console et sélectionnez Créer une application de streaming.

  6. Dans Choisir une méthode pour configurer l'application de traitement de flux, sélectionnez Utiliser un plan.

  7. Sélectionnez le plan d'application AI en temps réel dans le menu déroulant des plans.

  8. Fournissez les configurations souhaitées. Consultez Création de configurations de page.

  9. Sélectionnez Deploy Blueprint pour démarrer un CloudFormation déploiement.

  10. Une fois le CloudFormation déploiement terminé, accédez à l'application Flink déployée. Vérifiez les propriétés d'exécution de l'application.

  11. Vous pouvez choisir de modifier/ajouter des propriétés d'exécution à votre application. Voir Configuration des propriétés d'exécution pour plus de détails sur la configuration de ces propriétés.

    Note

    Remarque :

    Si vous utilisez OpenSearch Provisioned, assurez-vous d'avoir activé le contrôle d'accès à grain fin.

    Si votre cluster provisionné est privé, ajoutez-le https:// à votre point de VPC terminaison OpenSearch provisionné URL et modifiez-le pour qu'sink.os.endpointil pointe vers ce point de terminaison.

    Si votre cluster provisionné est public, assurez-vous que votre MSF application peut accéder à Internet. Pour plus d'informations, voir Accès à Internet et aux services pour une application de service géré VPC connectée pour Apache Flink.

  12. Une fois que vous êtes satisfait de toutes les configurations, sélectionnezRun. L'application va commencer à fonctionner.

  13. Envoyez des messages dans votre MSK cluster.

  14. Accédez au cluster Opensearch et accédez au OpenSearch tableau de bord.

  15. Sur le tableau de bord, sélectionnez Découvrir dans le menu de gauche. Vous devriez voir les documents persistants ainsi que leurs intégrations vectorielles.

  16. Reportez-vous à la section Utilisation des collections de recherche vectorielle pour savoir comment utiliser les vecteurs stockés dans l'index.

Création de configurations de page

Cette rubrique décrit les configurations de page de création auxquelles se référer lors de la spécification de configurations pour les plans d'applications d'IA en temps réel.

Nom de l'application

Champ existant dansMSF, donnez n'importe quel nom à votre application.

MSKCluster

Sélectionnez le MSK cluster que vous avez créé lors de l'installation dans la liste déroulante.

Rubriques

Ajoutez le nom du ou des sujets que vous avez créés dans la configuration.

Type de données du flux d'entrée

Choisissez String si vous souhaitez fournir une entrée de chaîne au MSK flux.

Choisissez JSONsi l'entrée du MSK flux estJSON. Dans JSONles clés intégrées, écrivez les noms des champs de votre entrée JSON dont vous souhaitez envoyer la valeur à Bedrock pour générer des intégrations.

Modèle d'intégration Bedrock

Sélectionnez-en un dans la liste. Assurez-vous d'avoir accès au modèle que vous avez choisi, sinon la pile risque d'échouer. Consultez Ajouter ou supprimer l'accès aux modèles de fondation Amazon Bedrock.

OpenSearch grappe

Sélectionnez le cluster que vous avez créé dans le menu déroulant.

OpenSearch nom de l'index vectoriel

Sélectionnez l'index vectoriel que vous avez créé à l'étape ci-dessus.