

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 分析 Amazon Personalize 数据集中的数据质量和数量
<a name="analyzing-data"></a>

将数据导入物品交互、用户或物品数据集后，您可以使用 Amazon Personalize 控制台来分析数据。您可以通过数据见解以及列和行统计信息来了解您的数据。您还可以了解可采取哪些操作来改善数据。这些操作可以帮助您满足 Amazon Personalize 资源要求，例如模型训练要求，也可以改进建议。

**重要**  
您不能使用 Amazon Personalize 控制台来分析*操作交互*或*操作*数据集中的数据。

 做出任何建议的更改后，您可以再次导入数据，看看是否解决了任何问题或改进了数据集统计信息。有关更新数据的信息，请参阅[训练后更新数据集中的数据](updating-datasets.md)。

 如果未看到任何见解，则说明您的数据符合 Amazon Personalize 数据预期。您可以分析域数据集组或自定义数据集组中的数据。

 在生成见解和计算统计信息时，Amazon Personalize 会考虑来自非匿名用户的所有批量和流式传输数据。只有将匿名用户的事件与 `userId` 关联后，才会考虑此类事件。有关更多信息，请参阅 [为匿名用户记录事件](recording-events.md#recording-anonymous-user-events)。

**Topics**
+ [分析数据所需的权限](#analyze-data-minimum-permissions)
+ [数据见解](#data-insights)
+ [查看数据集见解和统计信息](#run-analysis-console)

## 分析数据所需的权限
<a name="analyze-data-minimum-permissions"></a>

如果您授予用户对 Amazon Personalize 的完全访问权限，则无需更改权限。如果您仅向用户授予在 Amazon Personalize 中执行任务所需的权限，则您的 AWS Identity and Access Management (IAM) 策略必须包括以下其他数据洞察操作。
+ 个性化：CreateDataInsightsJob
+ 个性化：ListDataInsightsJobs
+ 个性化：DescribeDataInsightsJob
+ 个性化：GetDataInsights

## 数据见解
<a name="data-insights"></a>

 以下是您可以在 Amazon Personalize 中生成的可能的数据见解。


| 见解 | 操作 | 相关数据集 | 
| --- | --- | --- | 
| 交互数据集只有 X 次交互。模型训练至少需要 1000 次交互。我们建议至少 5 万次交互。 | 在训练模型之前，导入 Y 条额外唯一交互记录。 | 物品交互 | 
| 交互数据集只有 X 个具有两个或更多交互的唯一用户。模型训练需要至少 25 个这样的用户。我们建议至少 1000 个用户。 |  为其他 Y 个用户中的每个用户导入至少 2 条交互记录。 | 物品交互 | 
| 物品数据集中有 X% 的物品在交互数据集中没有交互，因此可能不建议使用它们。 |  请务必导入所有互动数据，并检查您的项目和互动数据集 IDs 之间是否不匹配。查看下面有关物品和交互数据集的数据集统计信息，确保导入的行数达到了预期的行数。如果您的使用案例或食谱使用浏览，请修改浏览配置，以建议更多没有交互数据的物品。  | 物品交互和物品 | 
| 用户数据集中有 X% 的用户在交互数据集中没有交互。这些用户将收到热门物品的建议。 |  请务必导入所有互动数据，并检查用户和互动数据集 IDs 之间是否存在不匹配的情况。查看下面有关用户和交互数据集的数据集统计信息，确保导入的行数达到了预期的行数。导入任何其他交互，以便更多用户拥有交互数据。  | 物品交互和用户 | 
| <用户或物品或交互> 数据集有 X% 的行缺失值。这可能会对建议产生负面影响。我们建议所有必填字段和可选字段的填写率至少为 70%。 |  导入其他完整记录，或者在没有不完整行的情况下再次导入数据，或者在将缺失值替换为替代数据（例如数值列的平均值或类别列的最常见值）的情况下再次导入数据。  | 任何 | 
| <datasetType>数据集中以下各列的完成度不到 70%：< ColumnName、 ColumnName... >。如果这些数据包含在训练中，可能会对建议产生负面影响。我们建议允许空值的列的填写率至少为 70%。 |  导入其他完整记录，或者在没有不完整行的情况下再次导入数据，或者在将缺失值替换为替代数据（例如数值列的平均值或类别列的最常见值）的情况下再次导入数据。  | 任何 | 
| 以下（数字）列具有异常值：< ColumnName、 ColumnName... >。异常值不一定是问题，但有时会对建议产生负面影响。 |  使用下面的列统计信息，检查这些列的最小值和最大值是否符合您的预期。如果这些值出乎意料，请检查这些列中的数据是否存在不准确之处，并查看您的数据收集和数据处理是否存在问题。  | 任何 | 
| 以下列有 1000 多个可能的类别：< ColumnName、 ColumnName... >。如果这些数据包含在训练中，则可能会对建议产生负面影响：<ColumnName， ColumnName... >。 |  检查您的分类数据是否存在问题，例如拼写差异导致的重复类别。纠正任何不准确之处并重新导入数据。  | 任何 | 
|  以下文本元数据列的完成率不到 85%，不会用于模型训练：<ColumnName， ColumnName... >。 |  导入其他行或使用这些列的文本数据重新导入行。  | 物品 | 
|  交互数据集有 10 多个唯一的事件类型，这将导致模型训练失败。 |  检查您的事件类型列中是否存在不准确之处，例如拼写差异导致的事件类型重复。删除不必要的事件类型并重新导入数据。  | 物品交互 | 
|  交互数据集的所有记录都具有相同的时间戳。如果您使用 USER\$1SEGMENTATION 食谱，并且所有记录都具有相同的时间戳，则模型训练将失败。 |  检查您的数据是否存在时间戳问题，并将重复的时间戳替换为唯一的时间戳。  | 物品交互 | 

## 查看数据集见解和统计信息
<a name="run-analysis-console"></a>

要在 Amazon Personalize 数据集中查看您数据的见解和统计信息，请在 Amazon Personalize 控制台中导航到您的数据集，然后选择“运行分析”。

**注意**  
您必须先导入数据，然后 Amazon Personalize 才能对其进行分析。有关更多信息，请参阅 [将训练数据导入 Amazon Personalize 数据集](import-data.md)。

**查看见解和统计信息**

1. 在[https://console.aws.amazon.com/personalize/家](https://console.aws.amazon.com/personalize/home)中打开 Amazon Personalize 控制台并登录您的账户。

1.  在**数据集组**页面，选择您的数据集组。

1. 从导航窗格中，在**数据集**下选择**数据分析**。

1.  在右上角，选择**运行分析**。此时，Amazon Personalize 开始分析您的数据。这一过程耗时最多 15 分钟。如果成功，结果将显示在此页面上。

1. 在**见解**中，使用以下内容筛选显示的见解。
   + 要查找包含特定语言的见解，请在**查找见解**中输入您的标准。在您输入文本时，列表会更新为仅包含在见解或建议操作中包含精确字符串的见解。
   +  要按数据集类型筛选见解，请将**所有数据集**更改为特定数据集类型。列表将更新为仅包含与此数据集相关的见解。

1. 要查看数据集的数据集统计信息，请执行以下操作。
   + 要查看有关数据集的一般详细信息和统计信息（例如交互数据集中的行数、唯一用户数和唯一物品数），请展开该数据集对应的部分。
   + 要查看某列的详细统计信息，请展开数据集部分，选择**列级别统计信息**，然后选择该列对应的单选按钮。

1.  更正数据中的所有问题，重新导入，然后运行另一次分析进行验证。有关再次导入数据的更多信息，请参阅[训练后更新数据集中的数据](updating-datasets.md)。