本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
部署流数据矢量化蓝图
本主题介绍如何部署流数据矢量化蓝图。
部署流数据矢量化蓝图
-
确保以下资源设置正确:
-
包含一个或多个包含数据的主题的预配置或无服务器 MSK 集群。
-
-
基岩设置:访问所需的基岩模型。目前支持的 Bedrock 型号有:
Amazon Titan Embeddings G1 - Text
Amazon Titan 文本嵌入 V2
Amazon Titan Multimodal Embeddings G1
Cohere Embed(英文版)
Cohere Embed(多语版)
-
AWS OpenSearch 收藏:
您可以使用预配置或无服务器 OpenSearch 服务集合。
OpenSearch 服务集合必须至少有一个索引。
如果您计划使用OpenSearch 无服务器集合,请务必创建矢量搜索集合。有关如何设置向量索引的详细信息,请参阅知识库中您自己的矢量存储的先决条件。要了解有关矢量化的更多信息,请参阅 A mazon Serv OpenSearch ice 的矢量数据库功能说明
。 注意
创建向量索引时,必须使用向量字段名称
embedded_data
。如果您计划使用OpenSearch 已配置的集合,则需要将蓝图创建的 MSF 应用程序角色(包含 Opensearch 访问策略)作为主用户添加到您的集合中。 OpenSearch 另外,请确认中的访问策略 OpenSearch 已设置为 “允许” 操作。这是启用细粒度访问控制所必需的。
或者,您可以启用对 OpenSearch 仪表板的访问权限以查看结果。请参阅启用细粒度访问控制。
使用允许 aws: CreateStack 权限的角色登录。
前往 MSF 控制台仪表板并选择 “创建流媒体应用程序”。
在选择设置流处理应用程序的方法中,选择使用蓝图。
从蓝图下拉菜单中选择实时 AI 应用程序蓝图。
提供所需的配置。请参阅 创建页面配置。
选择部署蓝图开始部 CloudFormation 署。
CloudFormation 部署完成后,转到已部署的 Flink 应用程序。检查应用程序的运行时属性。
您可以选择在应用程序中更改/添加运行时属性。有关配置这些属性的详细信息,请参阅运行时属性配置。
注意
注意:
如果您使用的是 OpenSearch 预配置,请确保您启用了细粒度访问控制。
如果您的预配置集群为私有集群,请
https://
添加到您的 OpenSearch 预配置 VPC 终端节点 URL 并更改sink.os.endpoint
为指向此终端节点。如果您配置的集群是公共的,请确保您的 MSF 应用程序可以访问互联网。有关更多信息,请参阅 >>>>> express-brokers-publication-merge type= “documention” url = “managed-flink/latest/java/vpc-internet.html” >Apache Flink 应用程序连接到 VPC 的托管服务的互联网和服务访问权限。
对所有配置都满意后,选择
Run
。应用程序将开始运行。在您的 MSK 集群中泵送消息。
导航到 Opensearch 集群并转到 OpenSearch 控制面板。
在仪表板上,选择左侧菜单中的 “发现”。你应该看到持久化文档及其矢量嵌入。
要了解如何使用存储在索引中的向量,请参阅使用矢量搜索集合。
创建页面配置
本主题介绍在为实时 AI 应用程序蓝图指定配置时要参考的创建页面配置。
- 应用程序名称
-
MSF 中的现有字段,请为您的应用程序指定任何名称。
- MSK 集群
-
从下拉列表中选择您在安装过程中创建的 MSK 集群。
- 主题
-
添加您在设置中创建的主题的名称。
- 输入流数据类型
-
如果您要向 MSK 流提供字符串输入,请选择字符串。
如果 MSK 流中的输入是 JSO N,请选择 JSON。在嵌入的 JSON 密钥中,在输入 JSON 中写下要将其值发送到 Bedrock 以生成嵌入的字段的名称。
- 基岩嵌入模型
从列表中选择一个。确保您拥有所选模型的模型访问权限,否则堆栈可能会失败。请参阅添加或移除对 Amazon Bedrock 基础模型的访问权限。
- OpenSearch 集群
从下拉列表中选择您创建的集群。
- OpenSearch 向量索引名称
选择您在上述步骤中创建的向量索引。