预测标签中正比例的差异 (DPPL) - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签中正比例的差异 (DPPL)

预测标签 (DPPL) 指标中正比例的差异决定了模型对每个方面的结果的预测是否不同。其定义是分面 a 的阳性预测值 (y’ = 1) 比例与分面 d 的阳性预测值 (y’ = 1) 比例之差。例如,如果模型预测向 60% 的中年组(分面 a)和 50% 的其他年龄组(分面 d)发放贷款,则可能存在不利于分面 d 的偏差。在本例中,您必须确定这 10% 的差异是否对偏差案例有实质性影响。

将标签比例差异 (DPL)(一种训练前偏差的衡量标准)与DPPL训练后偏差的衡量标准进行比较,可以评估最初存在于数据集中的正比例偏差在训练后是否会发生变化。如果大DPPL于DPL,则训练后正比例的偏差会增加。如果小DPPL于DPL,则模型在训练后不会以正比例增加偏差。与之DPL比较DPPL并不能保证模型减少所有维度的偏差。例如,在考虑其他指标(例如反事实翻转测试 (FT)或)时,模型可能仍然存在偏差准确率差异 (AD)。有关偏见检测的更多信息,请参阅博客文章了解 Amazon Clarif SageMaker y 如何帮助检测偏见。有关标签比例的差异 (DPL)更多信息,请参阅DPL。

的公式DPPL是:

        DPPL= q' a-q' d

其中:

  • q'a = n'a(1)/na 是分面 a 中得到值为 1 的阳性结果的预测比例。在我们的例子中,是预计获得贷款的中年组分面的比例。这里 n'a(1) 表示分面 a 中获得值为 1 的阳性预测结果的成员数,na 表示分面 a 的成员数。

  • q'd = n'd(1)/nd 是分面 d 中获得值为 1 的阳性结果的预测比例。在我们的例子中,有一部分老年人和年轻人预计会获得贷款。这里 n'd(1) 表示分面 d 中获得阳性预测结果的成员数,nd 表示分面 d 的成员数。

如果DPPL足够接近 0,则表示训练后的人口均等已经实现。

对于二进制和多类别刻面标签,归一化DPL值的范围在 [-1, 1] 区间内。对于连续标签,值在区间 (-∞, +∞) 内变化。

  • 正DPPL值表示与分面 d 相比,分面 a 的预测阳性结果比例更高。

    这称为正偏差

  • DPPL接近零的值表示分面 ad 之间预测的积极结果比例更相等,值为零表示完全的人口平等。

  • 负DPPL值表示与分面 a 相比,分面 d 的预测阳性结果比例更高。这称为负偏差