回归模型洞察 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

回归模型洞察

解释预测

回归 ML 模型的输出是数值,是模型对目标的预测。例如,如果您要预测房价,模型的预测可能为 254013 这样的值。

注意

预测的范围可能与训练数据中目标的范围不同。例如,假设您预测房价,训练数据中目标的值范围是 0 到 450000。预测目标无需位于同样的范围,并可以为任意正值 (大于 450000) 或负值 (小于零)。请务必计划如何解决预测值在您的应用程序可接受范围之外的情况。

衡量 ML 模型准确度

对于回归任务,Amazon ML 使用行业标准的均方根误差 (RMSE) 指标。该指标衡量预测数值目标与实际数值答案 (基本实际情况) 之间的差距。RMSE 的值越小,模型的预测精度就越高。预测完全正确的模型的 RMSE 为 0。以下示例显示包含 N 条记录的评估数据:

image56

基准 RMSE

Amazon ML 提供了回归模型的基准指标。这是假设回归模型的 RMSE,该模型始终预测目标的平均值作为答案。例如,如果您预测房产买家的年龄,并且训练数据中所有观察的平均年龄为 35 岁,则基准模型始终将答案预测为 35 岁。您可以根据此基准来比较您的 ML 模型,以验证您的 ML 模型是否优于预测此常量答案的 ML 模型。

使用性能可视化

对于回归问题,常见的做法是检查残差。评估数据中某个观察的残差是真实目标与预测目标之间的差值。残差表示模型无法预测的目标部分。正残差表示模型低估了目标 (实际目标大于预测目标)。负残差表示高估 (实际目标小于预测目标)。评估数据残差的直方图在呈钟形分布并且中心在零上时,指示模型以随机方式产生错误,不会系统性地高于或低于预测目标值的任何特定范围。如果残差未构成以零为中心的钟形曲线,这种情况表示模型的预测中存在结构错误。向模型添加更多变量可能会帮助模型捕获当前模型未捕获的模式。下图显示了不以零为中心的残差。

image58