本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将亚马逊 A SageMaker I 模型与亚马逊集成 QuickSight
注意
您无需任何机器学习 (ML) 方面的技术经验即可使用 Amazon 中基于机器学习的功能编写分析和控制面板。 QuickSight
您可以使用亚马逊 A SageMaker I 机器学习模型来扩充您的亚马逊 QuickSight 企业版数据。您可以对存储在中的数据进行推断 SPICE 从 Amazon 支持的任何数据源导入 QuickSight。有关支持的数据源的完整列表,请参阅支持的数据来源。
将 Amazon QuickSight 与 SageMaker AI 模型配合使用可以节省您在管理数据移动和编写代码上可能花费的时间。这些结果可用于评估模型,也可在您对结果感到满意时共享给决策者。您可以在构建模型后立即开始使用。这样做会显示数据科学家的预构建模型,并使您能够将数据科学应用于数据集。然后,您可以在预测控制面板中共享这些见解。借助 Amazon QuickSight 无服务器方法,流程可以无缝扩展,因此您无需担心推理或查询容量。
Amazon QuickSight 支持使用回归和分类算法 SageMaker 的人工智能模型。可以应用此功能来获取几乎任何业务用例的预测结果。一些示例包括预测客户流失的可能性、员工流失、对销售线索进行评分,以及评估信用风险。要使用 Amazon QuickSight 提供预测,输入和输出的 SageMaker AI 模型数据都必须采用表格格式。在多类别或多标签分类用例中,每个输出列必须包含单个值。Amazon QuickSight 不支持在一列中包含多个值。
主题
SageMaker AI 集成的工作原理
一般来说,该过程的工作方式如下所示:
-
亚马逊 QuickSight 管理员为亚马逊添加了 QuickSight 访问 SageMaker 人工智能的权限。为此,请从 “管理” QuickSight 页面打开 “安全和权限” 设置。前往QuickSight访问 AWS 服务,然后添加 SageMaker AI。
当您添加这些权限时,Amazon 会 QuickSight 被添加到一个 AWS Identity and Access Management (IAM) 角色中,该角色提供列出您 AWS 账户中所有 SageMaker AI 模型的权限。它还提供运行名称前缀为的 SageMaker AI 作业的
quicksight-auto-generated-
权限。 -
我们建议您连接到具有推理管道的 SageMaker AI 模型,因为它会自动执行数据预处理。有关更多信息,请参阅 SageMaker AI 开发人员指南中的部署推理管道。
-
确定要结合使用的数据和预训练模型后,模型的拥有者将创建并提供一个架构文件。这个 JSON 文件是与 SageMaker AI 签订的合同。提供了有关模型所需的字段、数据类型、列顺序、输出和设置的元数据。可选设置组件提供了要用于该作业的计算实例的实例大小和数量。
如果您是构建该模型的数据科学家,请使用以下所述格式创建此架构文件。如果您是该模型的使用者,请从模型拥有者处获取此架构文件。
-
在 Amazon 中 QuickSight,您首先要创建一个包含您想要预测的数据的新数据集。如果您要上传文件,则可以在上传设置屏幕上添加 SageMaker AI 模型。否则,在数据准备页面上添加该模型。
继续操作之前,请验证数据集与模型之间的映射。
-
将数据导入数据集后,输出字段包含从 SageMaker AI 返回的数据。您可以按照您使用其他字段的方式使用这些字段(使用指南中所述的准则)。
当您运行 SageMaker AI 集成时,Amazon QuickSight 会向 A SageMaker I 传递请求,要求其使用推理管道运行批量转换作业。Amazon QuickSight 开始在您的 AWS 账户中配置和部署所需的实例。处理完成后,将关闭并终止这些实例。计算容量仅在处理模型时产生费用。
为了便于您识别它们,Amazon 使用前缀 QuickSight 命名其所有 SageMaker AI 任务
quicksight-auto-generated-
。 -
推理的输出存储在 SPICE 并追加到数据集中。推理完成后,您可以使用该数据集创建使用预测数据的可视化效果和控制面板。
-
每次保存数据集时都会启动数据刷新。您可以通过刷新来手动启动数据刷新过程 SPICE 数据集,也可以将其安排为定期运行。在每次数据刷新期间,系统都会自动调用 SageMaker AI 批量转换,以使用新数据更新输出字段。
你可以使用 Amazon QuickSight SPICE 用于控制数据刷新过程的摄取 API 操作。有关使用这些 API 操作的更多信息,请参阅 Amazon QuickSight API 参考。
产生的费用(集成本身无额外费用)
使用此功能本身不需要额外费用。您的费用包括以下内容:
-
通过 SageMaker AI 部署模型的成本,只有在模型运行时才会产生。在创建或编辑数据集之后,保存数据集或刷新其数据将启动数据摄取过程。如果数据集包含推断字段,则此过程包括调用 SageMaker AI。费用是在您的 QuickSight 订阅所在的同一个 AWS 账户中产生的。
-
您的 QuickSight 订阅费用如下:
-
将数据存储在内存计算引擎中的 QuickSight 成本(SPICE)。 如果您要向添加新数据 SPICE,你可能需要购买足够的东西 SPICE 容纳它的能力。
-
QuickSight 为构建数据集的作者或管理员提供订阅。
-
Pay-per-session 查看者(读者)访问交互式仪表板的费用。
-
使用指南
在 Amazon 中 QuickSight,以下使用指南适用于此企业版功能:
-
模型的处理发生在 SPICE因此,它只能应用于存储在 中的数据集。SPICE。 该流程目前支持每个数据集多达 5 亿行。
-
只有 QuickSight 管理员或作者才能使用机器学习模型扩充数据集。只有当结果在控制面板中显示时,读者才能查看。
-
每个数据集能且只能与一个 ML 模型结合使用。
-
输出字段不能用于计算新字段。
-
无法按与该模型集成的字段筛选数据集。换句话说,如果您的数据集字段当前已映射到 ML 模型,则无法对该字段进行筛选。
在 SageMaker AI 中,以下使用指南适用于您在 Amazon QuickSight 中使用的预训练模型:
-
创建模型时,请将其与适当 IAM 角色的 Amazon 资源名称 (ARN) 关联。 SageMaker 人工智能模型的 IAM 角色需要有权访问亚马逊 QuickSight 使用的 Amazon S3 存储桶。
-
确保您的模型同时对输入和输出支持 .csv 文件。确保您的数据采用表格格式。
-
提供包含该模型元数据的架构文件,包括输入和输出字段的列表。目前,您必须手动创建此架构文件。
-
考虑完成推理所需的时间,具体取决于许多因素。其中包括模型的复杂性、数据量和定义的计算容量。完成推理可能需要几分钟到几个小时的时间。Amazon QuickSight 将所有数据摄取和推理任务的上限限制为 10 小时。要减少执行推断所需的时间,请考虑增加实例大小或实例数。
-
目前,您只能使用批量转换与 SageMaker AI 集成,而不能使用实时数据。您不能使用 SageMaker AI 终端节点。
定义架构文件
在将 SageMaker AI 模型用于亚马逊 QuickSight 数据之前,请创建 JSON 架构文件,其中包含亚马逊处理该模型 QuickSight 所需的元数据。Amazon QuickSight 作者或管理员在配置数据集时上传架构文件。
架构字段定义如下。除非以下描述中特别说明,否则所有字段均为必填字段。属性区分大小写。
- inputContentType
-
此 SageMaker AI 模型期望输入数据的内容类型。唯一支持的值是
"text/csv"
。 QuickSight 不包括您添加到输入文件中的任何标题名称。 - outputContentType
-
您要使用的 SageMaker AI 模型生成的输出的内容类型。对此唯一支持的值是
"text/csv"
。 - input
-
模型期望在输入数据中包含的特征列表。 QuickSight 以完全相同的顺序生成输入数据。此列表包含以下属性:
-
name – 列的名称。如果可能,请将其与 QuickSight 数据集中相应列的名称相同。此属性不得超过 100 个字符。
-
type – 此列的数据类型。此属性采用
"INTEGER"
、"STRING"
和"DECIMAL"
值。 -
nullable –(可选)字段是否可为 null 值。默认值为
true
。如果设置nullable
为false
,则在调用 SageMaker AI 之前 QuickSight 删除不包含此值的行。这样做有助于避免导致 SageMaker AI 因缺少所需数据而失败。
-
- output
-
SageMaker AI 模型生成的输出列列表。 QuickSight期望这些字段的顺序完全相同。此列表包含以下属性:
-
名称-此名称将成为中创建的相应新列的默认名称 QuickSight。您可以覆盖中此处指定的名称 QuickSight。此属性不得超过 100 个字符。
-
type – 此列的数据类型。此属性采用
"INTEGER"
、"STRING"
和"DECIMAL"
值。
-
- instanceTypes
-
SageMaker AI 可以预置以运行转换作业的 ML 实例类型列表。该列表提供给 QuickSight 用户供其选择。此列表仅限于 SageMaker AI 支持的类型。有关支持的类型的更多信息,请参阅 SageMaker AI 开发者指南TransformResources中的。
- defaultInstanceType
-
(可选)在 SageMaker AI 向导中作为默认选项显示的实例类型 QuickSight。请将此实例类型包含在
instanceTypes
中。 - instanceCount
-
(可选)实例计数定义了要让 SageMaker AI 配置多少选定实例来运行转换作业。此值必须为正整数。
- 描述
-
该字段为拥有 SageMaker AI 模型的人提供了一个与在中使用该模型的人进行通信的地方 QuickSight。使用此字段可提供有关成功使用此模型的提示。例如,此字段可以包含有关根据数据集的大小,从
instanceTypes
的列表选择有效实例类型的信息。此字段不得超过 1000 个字符。 - 版本
-
架构的版本,例如“
1.0"
”。
以下示例显示了架构文件中 JSON 的结构。
{ "inputContentType": "CSV", "outputContentType": "CSV", "input": [ { "name": "buying", "type": "STRING" }, { "name": "maint", "type": "STRING" }, { "name": "doors", "type": "INTEGER" }, { "name": "persons", "type": "INTEGER" }, { "name": "lug_boot", "type": "STRING" }, { "name": "safety", "type": "STRING" } ], "output": [ { "name": "Acceptability", "type": "STRING" } ], "description": "Use ml.m4.xlarge instance for small datasets, and ml.m4.4xlarge for datasets over 10 GB", "version": "1.0", "instanceCount": 1, "instanceTypes": [ "ml.m4.xlarge", "ml.m4.4xlarge" ], "defaultInstanceType": "ml.m4.xlarge" }
架构文件的结构与 SageMaker AI 提供的示例中使用的模型类型有关。
向 QuickSight 数据集添加 SageMaker AI 模型
使用以下步骤,您可以向数据集添加预训练的 SageMaker AI 模型,以便可以在分析和仪表板中使用预测数据。
在开始之前,请准备以下项目:
-
要用于构建数据集的数据。
-
要用于扩充数据集的 SageMaker AI 模型的名称。
-
模型的架构。此架构包括字段名称映射和数据类型。最好还能包含有关实例类型和要使用的实例数量的建议设置。
使用 SageMaker AI 扩充您的 Amazon QuickSight 数据集
-
通过选择数据集,然后选择新建数据集,从起始页创建新数据集。
您也可以编辑现有的数据集。
-
在数据准备屏幕 SageMaker上选择 Augment with。
-
对于 Select your model (选择您的模型),选择以下设置:
-
模型-选择用于推断字段的 SageMaker AI 模型。
-
名称 – 为模型提供描述性名称。
-
架构 – 上传为模型提供的 JSON 架构文件。
-
高级设置-根据您的数据集 QuickSight推荐所选的默认设置。您可以使用特定的运行时设置来平衡作业的速度和成本。为此,请在 “实例类型” 中输入 SageMaker AI ML 实例类型,在 “计数” 中输入 “实例数量”。
选择下一步以继续。
-
-
对于查看输入,请查看映射到您的数据集的字段。 QuickSight 尝试自动将架构中的字段映射到数据集中的字段。如果映射需要调整,您可以在此处进行更改。
选择下一步以继续。
-
对于查看输出,请查看已添加到数据集的字段。
选择 Save and prepare data (保存并准备数据) 以确认您的选择。
-
要刷新数据,请选择数据集以查看详细信息。然后选择 Refresh Now (立即刷新) 手动刷新数据,或者选择 Schedule refresh (计划刷新) 以设置常规刷新间隔。在每次数据刷新期间,系统都会自动运行 SageMaker AI 批量转换作业,以使用新数据更新输出字段。