本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
评估模型的性能
Amazon SageMaker Canvas 提供了不同类型模型的概述和评分信息。模型的评分有助于您确定模型进行预测时的准确程度。额外的评分见解有助于您量化实际值和预测值之间的差异。
要查看模型的分析,请执行以下操作:
-
打开 SageMaker 画布应用程序。
-
在左侧导航窗格中,选择我的模型。
-
选择您构建的模型。
-
在顶部导航窗格中,选择分析选项卡。
-
在分析选项卡中,您可以查看模型的概述和评分信息。
下面几节介绍如何解释每种模型类型的评分。
评估分类预测模型
概览选项卡显示每列的列影响。列影响是一个百分比分数,表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列,Canvas 将该列的预测权重定为 25%,其他列的预测权重定为 75%。
下面的屏幕截图显示了模型的准确性分数,以及优化指标,这是您在构建模型时选择优化的指标。在本例中,优化指标为准确性。如果您构建模型的新版本,则可以指定不同的优化指标。
分类预测模型的评分选项卡可让您直观地查看所有预测。线段从页面左侧延伸,表示模型做出的所有预测。在页面中间,线段汇聚到一条垂直线段上,表示每个预测在单一类别中所占的比例。从预测的类别开始,细分到实际类别。通过跟踪从预测类别到实际类别的每条线段,您可以直观地了解预测的准确性。
下图给出了 3+ 类别预测模型的评分部分示例。
您还可以查看高级指标选项卡,了解有关模型性能的更多详细信息,例如高级指标、误差密度图或混淆矩阵。要了解有关 “高级指标” 选项卡的更多信息,请参阅在分析中使用高级指标。
评估数值预测模型
概览选项卡显示每列的列影响。列影响是一个百分比分数,表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列,Canvas 将该列的预测权重定为 25%,其他列的预测权重定为 75%。
以下屏幕截图显示了概述选项卡上模型的RMSE分数,在本例中为优化指标。优化指标是您在构建模型时选择优化的指标。如果您构建模型的新版本,则可以指定不同的优化指标。
数值预测的评分选项卡显示一条线,表示模型相对于用于预测的数据的预测值。数值预测的值通常是 +/-RMSE(均方根误差)值。模型预测的值通常在的范围内RMSE。线条周围紫色条带的宽度表示RMSE范围。预测值通常在该范围内。
下图显示了数值预测的评分部分。
您还可以查看高级指标选项卡,了解有关模型性能的更多详细信息,例如高级指标、误差密度图或混淆矩阵。要了解有关 “高级指标” 选项卡的更多信息,请参阅在分析中使用高级指标。
评估时间序列预测模型
在时间序列预测模型的分析页面上,您可以看到模型指标的概述。您可以将鼠标悬停在每个指标上方以获取更多信息,也可以查看在分析中使用高级指标有关每个指标的更多信息。
在列影响部分中,您可以看到每列的分数。列影响是一个百分比分数,表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列,Canvas 将该列的预测权重定为 25%,其他列的预测权重定为 75%。
以下屏幕截图显示了模型的时间序列指标分数,以及优化指标,这是您在构建模型时选择优化的指标。在本例中,优化指标为RMSE。如果您构建模型的新版本,则可以指定不同的优化指标。这些指标分数取自您的回测结果,可在 “Artifacts” 选项卡中下载。
Ar t ifacts 选项卡提供了对多个关键资源的访问权限,您可以使用这些资源来更深入地研究模型的性能并继续对其进行迭代:
-
随机排列的训练和验证拆分 — 本部分包含指向将数据集拆分为训练集和验证集时生成的工件的链接,使您可以查看数据分布和潜在的偏差。
-
回测结果 — 本部分包含指向验证数据集预测值的链接,该数据集用于生成模型的准确性指标和评估数据。
-
精度指标-本节列出了评估模型性能的高级指标,例如均方根误差 (RMSE)。有关每个指标的更多信息,请参阅时间序列预测的指标。
-
可解释性报告 — 本节提供了下载可解释性报告的链接,该报告提供了对模型决策过程和输入列相对重要性的见解。该报告可以帮助您确定潜在的改进领域。
在 “分析” 页面上,您还可以选择 “下载” 按钮,将回测结果、准确性指标和可解释性报告工件直接下载到本地计算机。
评估图像预测模型
概览选项卡会显示每个标签的性能,为您提供每个标签预测的图像的总体准确性分数。您可以选择一个标签来查看更具体的详细信息,例如该标签的正确预测和错误预测图像。
您可以打开热图开关以查看每张图像的热图。热图显示了在模型进行预测时影响最大的相关领域。有关热图以及如何使用热图改进模型的更多信息,请选择热图开关旁边的更多信息图标。
单标签图像预测模型的评分选项卡显示了模型预测的标签与实际标签的对比。一次最多可选择 10 个标签。您可以通过选择标签下拉菜单并选择或取消选择标签来更改可视化中的标签。
您还可以在模型准确性洞察部分选择查看分数下拉菜单,查看单个标签或标签组的洞察,例如准确性最高或最低的三个标签。
以下屏幕截图显示了单标签图像预测模型的评分信息。
评估文本预测模型
概览选项卡会显示每个标签的性能,为您提供每个标签预测的文本段落的总体准确性分数。您可以选择一个标签来查看更具体的详细信息,例如该标签的正确预测和错误预测段落。
多元文本预测模型的评分选项卡显示了模型预测的标签与实际标签的对比。
在模型准确性洞察部分,您可以看到最常预测的类别,它告诉您模型最常预测的类别以及这些预测的准确性。如果您的模型在 99% 的情况下都能正确预测出积极标签,那么您就可以相当自信地认为,您的模型在预测文本中的积极情绪方面表现出色。
以下屏幕截图显示了多元文本预测模型的评分信息。