本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
查全率差异 (RD)
查全率差异 (RD) 指标是模型在有利分面 a 和不利分面 d 之间的查全率差异。这些查全率的任何差异都是一种潜在的偏差。查全率是真阳性率 (TPR),用于衡量模型正确预测应得到阳性结果的案例的频率。如果某一分面的所有 y=1 案例都正确预测为 y'=1,则该分面的查全率是完美的。当模型尽可能地减少假阴性(即 II 型错误)时,查全率会更高。例如,模型正确检测了两个不同组(分面 a 和 d)中有多少人本应有资格获得贷款? 如果向分面 a 提供贷款的查全率高,而向分面 d 提供贷款的查全率低,那么差异就可用来衡量这种不利于分面 d 中组的偏差。
分面 a 和 d 查全率差异的公式:
RD = TPa/(TPa + FNa) - TPd/(TPd + FNd) = TPRa - TPRd
其中:
-
TPa 是分面 a 的真阳性预测值。
-
FNa 是分面 a 的假阴性预测值。
-
TPd 是分面 d 的真阳性预测值。
-
FNd 是分面 d 的假阴性预测值。
-
TPRa = TPa/(TPa + FNa) 是分面 a 的查全率或其真阳性率。
-
TPRd TPd/(TPd + FNd) 是分面 d 的查全率或其真阳性率。
例如,考虑分面 a 和 d 的以下混淆矩阵。
有利分面 a 的混淆矩阵
类 a 预测 | 实际结果 0 | 实际结果 1 | Total |
---|---|---|---|
0 | 20 | 5 | 25 |
1 | 10 | 65 | 75 |
Total | 30 | 70 | 100 |
不利分面 d 的混淆矩阵
类 d 预测 | 实际结果 0 | 实际结果 1 | Total |
---|---|---|---|
0 | 18 | 7 | 25 |
1 | 5 | 20 | 25 |
Total | 23 | 27 | 50 |
查全率差异值为 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19,这表明存在不利于分面 d 的偏差。
对于二进制和多类别分类,分面 a 和 d 之间的查全率差异值范围为 [-1, +1]。此指标对连续标签不可用。
-
当分面 a 的查全率高于分面 d 时,就会获得正值。这表明该模型发现分面 a 的真阳性多于分面 d 的真阳性,这是一种形式的偏差。
-
接近零的值表示所比较的分面的查全率相似。这表明该模型在这两个分面发现的真阳性数量大致相同,没有偏差。
-
当分面 d 的查全率高于分面 a 时,就会获得负值。这表明该模型发现分面 d 的真阳性多于分面 a 的真阳性,这是一种形式的偏差。