本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
生成可视化和数据见解
将数据导入 Data Wrangler 后,您可以使用它来生成可视化和数据见解。
通过可视化和见解了解数据后,您可以使用这些信息帮助您应用其他转换来改善数据。或者,如果您完成了数据准备,则可以对其进行处理并将其导入到 Amazon Personalize 中。有关数据转换的信息,请参阅转换数据。有关处理和导入数据的信息,请参阅处理数据并将其导入 Amazon Personalize。
生成可视化
您可以使用 Data Wrangler 创建不同类型的图表,例如直方图和散点图。例如,您可以生成直方图来识别数据中的异常值。要生成数据可视化,请在流中添加分析步骤,然后从分析类型中选择要创建的可视化。
有关在 Data Wrangler 中创建可视化的更多信息,请参阅 A ma SageMaker zon 开发者指南中的分析和可视化。
生成数据见解
您可以使用 Data Wrangler,生成特定于数据集类型的 Amazon Personalize 的数据质量和见解报告。在生成报告之前,我们建议您转换数据以满足 Amazon Personalize 的要求。这将生成更多相关的见解。有关更多信息,请参阅 转换数据。
报告内容
Amazon Personalize 的数据质量和见解报告 包括以下部分:
-
摘要: 报告摘要包括数据集统计信息和高优先级警告:
-
数据集统计信息: 包括 Amazon Personalize 的特定统计信息(例如交互数据中的唯一用户数量)以及一般统计信息(例如缺失值或异常值的数量)。
-
高优先级警告: 这些是 Amazon Personalize 的特定见解,对训练或建议的影响最大。每个警告都包含可用于解决问题的建议操作。
-
-
重复行和不完整行: 这些部分包含有关数据中哪些行存在缺失值以及哪些行重复的信息。
-
特征摘要: 本部分包括每列的数据类型、无效或缺失的数据信息以及警告计数。
-
特征详情: 本部分包括含每列数据详细信息的子部分。每个子部分都包含列的统计信息,例如类别值计数和缺失值信息。而且,每个子部分都包含 Amazon Personalize 针对数据列的具体见解和建议的操作。例如,见解可能表明某一列包含超过 30 个可能的类别。
数据类型问题
报告会识别数据类型不正确的列,并指定所需的类型。要获得与这些特征相关的见解,您必须转换列的数据类型并重新生成报告。要转换类型,您可以使用 Data Wrangler 转换将值解析为类型。
Amazon Personalize 见解
Amazon Personalize 见解包括调查结果和建议的操作。操作是可选的。例如,报告可能包含与一列分类数据的类别数量相关的见解和操作。如果您认为该列不是类别列,则可以忽略此见解,不采取任何操作。
除了细微的措辞差异外,Amazon Personalize 的特定见解与您在使用 Amazon Personalize 分析数据时可能生成的单个数据集 见解相同。例如,Data Wrangler 中的见解报告包含诸如“物品交互数据集只有 X 个具有两次或更多次交互的唯一用户”之类的见解。但它不包括诸如“物品数据集 中有 X% 的物品在物品交互数据集中没有交互”之类的见解。
有关可能的 Amazon Personalize 特定见解列表,请参阅数据见解中未引用多个数据集的见解。
报告示例
Amazon Personalize 报告的外观和风格与 Data Wrangler 中的一般见解报告相同。有关一般见解报告的示例,请参阅《Amazon SageMaker 开发者指南》中的 “获取有关数据和数据质量的见解”。以下示例显示了物品交互数据集报告的摘要部分。它包括数据集统计信息和一些可能的高优先级物品交互数据集警告。
以下示例显示了项目交互数据集的 EVENT _ TYPE 列的功能详细信息部分在报表中的显示方式。
生成报告
要生成 Amazon Personalize 的数据质量和见解报告,请为您的转换选择获取数据见解,然后创建分析。
生成 Amazon Personalize 的数据质量和见解报告
-
为您要分析的转换选择 + 选项。如果您尚未添加转换,请为数据类型转换选择 +。Data Wrangler 会自动将此转换添加到您的流中。
-
选择获取数据见解。这时,将显示创建分析面板。
-
对于分析类型,选择 Amazon Personalize 的数据质量和见解报告。
-
对于数据集类型,选择您要分析的 Amazon Personalize 数据集的类型。
-
(可选)选择针对完整数据运行。默认情况下,Data Wrangler 仅生成有关数据样本的见解。
-
选择创建。分析完成后,将显示报告。