调试器XGBoost训练报告演练 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

调试器XGBoost训练报告演练

本节将引导您完成调试器XGBoost训练报告。报告会根据输出张量正则表达式自动聚合,识别您的训练作业属于二进制分类、多分类器还是回归类型。

重要

报告中提供的图表和建议仅供参考,并不确保准确无误。您应负责对其中的信息进行单独评测。

数据集真实标签的分布

此直方图显示原始数据集内的标注类(用于分类)或值(用于回归)的分布情况。数据集内的偏斜可能会导致不准确的情况。此可视化对象可用于以下模型类型:二进制分类、多分类和回归。

数据集图表的真实标签分布的示例。

亏损与阶梯图

此折线图显示整个训练步骤中,训练数据和验证数据上损失的进展。损失由您在目标函数中定义,例如平方误差。您可以根据此图来衡量模型是过度拟合还是欠拟合。此部分还提供了深入分析,您可以用来确定如何解决过度拟合和欠拟合的问题。此可视化对象可用于以下模型类型:二进制分类、多分类和回归。

损失与步骤图的示例。

功能重要性

可视化效果中提供了三种不同类型的特征重要性:权重、增益和覆盖率。我们在报告中为三者分别提供了详细的定义。特征重要性可视化对象可协助您了解训练数据集内的哪些特征对预测作出了贡献。功能重要性可视化对象可用于以下模型类型:二进制分类、多分类器和回归。

特征重要性图的示例。

混淆矩阵

此可视化对象仅可用于二进制分类和多分类器模型。仅仅依靠准确性可能不足以评估模型性能。对于某些使用场景,例如医疗保健和欺诈检测,了解假阳性率和假阴性率也很重要。混淆矩阵为您提供了其他用于评估模型性能的维度。

混淆矩阵的示例。

混淆矩阵的评估

此部分为您提供了有关模型查准率、查全率和 F1 分数的微观、宏观和加权指标的更多见解。

评估混淆矩阵。

迭代过程中每个对角线元素的准确率

此可视化对象仅可用于二进制分类和多分类器模型。此折线图描绘了各个类的整个训练步骤中,混淆矩阵中的对角线值。此图显示在整个训练步骤中,各个类的准确性进展情况。您可以从此图确定表现不佳的类。

迭代中各个对角元素的准确率图示例。

接收器工作特性曲线

此可视化对象仅适用于二进制分类模型。接收者操作特征曲线通常用于评估二进制分类模型的性能。曲线的 y 轴为真阳性率 (TPF),x 轴为误报率 (FPR)。该图还显示曲线下方区域的值 (AUC)。AUC值越高,分类器的预测性就越强。您还可以使用ROC曲线来了解TPR和之间的权衡取舍,FPR并为您的用例确定最佳分类阈值。分类阈值可以调整,用以调整模型的行为,来减少类型多个错误或另一种类型的错误 (FP/FN)。

接收者操作特征曲线图示例。

上次保存步骤的残差分布

此可视化对象是一个柱状图,显示 Debugger 在最后的步骤中捕获的残余分布。在此可视化对象中,您可以检查残差分布是否接近以零为中心的正态分布。如果残差出现偏斜,则您的特征可能不足以预测标签。

最后保存步骤中残差分布图示例。

迭代期间每个标签箱的绝对验证错误

此可视化对象仅适用于回归模型。实际目标值拆分为 10 个间隔。此可视化对象显示了折线图中,对于整个训练步骤,每个间隔的验证错误的进展情况。绝对验证误差是验证期间,预测值与实际值之差的绝对值。您可以从此可视化对象中识别性能不佳的间隔。

迭代期间每个标签箱的绝对验证误差图示例。