生成可视化和数据见解 - Amazon Personalize

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

生成可视化和数据见解

将数据导入 Data Wrangler 后,您可以使用它来生成可视化和数据见解。

  • 可视化: Data Wrangler 可以生成不同类型的图表,例如直方图和散点图。例如,您可以生成直方图来识别数据中的异常值。

  • 数据见解: 您可以使用适用于 Amazon Personalize 的数据质量和见解报告,通过数据见解以及列和行统计信息来了解您的数据。此报告可以告知您数据中是否存在任何类型问题。您还可以了解可采取哪些操作来改善数据。这些操作可以帮助您满足 Amazon Personalize 资源要求,例如模型训练要求,也可以改进建议。

通过可视化和见解了解数据后,您可以使用这些信息帮助您应用其他转换来改善数据。或者,如果您完成了数据准备,则可以对其进行处理并将其导入到 Amazon Personalize 中。有关数据转换的信息,请参阅转换数据。有关处理和导入数据的信息,请参阅处理数据并将其导入 Amazon Personalize

生成可视化

您可以使用 Data Wrangler 创建不同类型的图表,例如直方图和散点图。例如,您可以生成直方图来识别数据中的异常值。要生成数据可视化,请在流中添加分析步骤,然后从分析类型中选择要创建的可视化。

有关在 Data Wrangler 中创建可视化的更多信息,请参阅 A ma SageMaker zon 开发者指南中的分析和可视化

生成数据见解

您可以使用 Data Wrangler,生成特定于数据集类型的 Amazon Personalize 的数据质量和见解报告。在生成报告之前,我们建议您转换数据以满足 Amazon Personalize 的要求。这将生成更多相关的见解。有关更多信息,请参阅 转换数据

报告内容

Amazon Personalize 的数据质量和见解报告 包括以下部分:

  • 摘要: 报告摘要包括数据集统计信息和高优先级警告:

    • 数据集统计信息: 包括 Amazon Personalize 的特定统计信息(例如交互数据中的唯一用户数量)以及一般统计信息(例如缺失值或异常值的数量)。

    • 高优先级警告: 这些是 Amazon Personalize 的特定见解,对训练或建议的影响最大。每个警告都包含可用于解决问题的建议操作。

  • 重复行和不完整行: 这些部分包含有关数据中哪些行存在缺失值以及哪些行重复的信息。

  • 特征摘要: 本部分包括每列的数据类型、无效或缺失的数据信息以及警告计数。

  • 特征详情: 本部分包括含每列数据详细信息的子部分。每个子部分都包含列的统计信息,例如类别值计数和缺失值信息。而且,每个子部分都包含 Amazon Personalize 针对数据列的具体见解和建议的操作。例如,见解可能表明某一列包含超过 30 个可能的类别。

数据类型问题

报告会识别数据类型不正确的列,并指定所需的类型。要获得与这些特征相关的见解,您必须转换列的数据类型并重新生成报告。要转换类型,您可以使用 Data Wrangler 转换将值解析为类型

Amazon Personalize 见解

Amazon Personalize 见解包括调查结果和建议的操作。操作是可选的。例如,报告可能包含与一列分类数据的类别数量相关的见解和操作。如果您认为该列不是类别列,则可以忽略此见解,不采取任何操作。

除了细微的措辞差异外,Amazon Personalize 的特定见解与您在使用 Amazon Personalize 分析数据时可能生成的单个数据集 见解相同。例如,Data Wrangler 中的见解报告包含诸如“物品交互数据集只有 X 个具有两次或更多次交互的唯一用户”之类的见解。但它不包括诸如“物品数据集 中有 X% 的物品在物品交互数据集中没有交互”之类的见解。

有关可能的 Amazon Personalize 特定见解列表,请参阅数据见解中未引用多个数据集的见解。

报告示例

Amazon Personalize 报告的外观和风格与 Data Wrangler 中的一般见解报告相同。有关一般见解报告的示例,请参阅《Amazon SageMaker 开发者指南》中的 “获取有关数据和数据质量的见解”。以下示例显示了物品交互数据集报告的摘要部分。它包括数据集统计信息和一些可能的高优先级物品交互数据集警告。

描绘项目交互数据集报告的摘要部分。

以下示例显示了项目交互数据集的 EVENT _ TYPE 列的功能详细信息部分在报表中的显示方式。

描绘了项目交互数据集的 EVENT _ TYPE 列的特征详细信息部分。

生成报告

要生成 Amazon Personalize 的数据质量和见解报告,请为您的转换选择获取数据见解,然后创建分析。

生成 Amazon Personalize 的数据质量和见解报告
  1. 为您要分析的转换选择 + 选项。如果您尚未添加转换,请为数据类型转换选择 +。Data Wrangler 会自动将此转换添加到您的流中。

  2. 选择获取数据见解。这时,将显示创建分析面板。

  3. 对于分析类型,选择 Amazon Personalize 的数据质量和见解报告

  4. 对于数据集类型,选择您要分析的 Amazon Personalize 数据集的类型。

  5. (可选)选择针对完整数据运行。默认情况下,Data Wrangler 仅生成有关数据样本的见解。

  6. 选择创建。分析完成后,将显示报告。