

我们不再更新 Amazon Machine Learning 服务，也不再接受新用户使用该服务。本文档可供现有用户使用，但我们不会再对其进行更新。有关更多信息，请参阅[什么是 Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html)。

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 分析数据
<a name="analyzing-your-data"></a>

在您将标记的数据提供给 ML 算法之前，最佳实践是检查您的数据以发现问题，并获得有关您所使用的数据的见解。您的模型的预测能力与您提供的数据相关。

分析数据时，您应记住以下注意事项：
+ 变量和目标数据摘要 - 了解您的变量获取的值以及哪些值在数据中是主要的，这非常重要。您可以让您希望解决的问题的主题专家来运行这些摘要。向自己或主题专家提问：数据是否符合您的预期？ 您是否可能有数据收集问题？ 您的目标中的一个类别是否比另一个类别更频繁？ 是否有比预期更多的缺失值或无效数据？
+ 变量-目标关联 - 了解各个变量和目标类别之间的相关性会有帮助，因为高相关性表示变量和目标类别之间有关系。一般而言，您希望包括具有高相关性的变量，因为这些是具有更高预测能力（信号）的变量，忽略低相关性的变量，因为它们可能不相关。

在 Amazon ML 中，您可以通过创建数据源和检查生成的数据报告来分析数据。