本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
录取率差异 (DAR)
接受率 (DAR) 指标的差异是分面 a 和 d 的真实阳性 (TP) 预测与观测到的阳性 (TP + FP) 的比率之差。该指标衡量了模型对这两个分面的接受率的预测精度差异。精度衡量的是模型从合格候选人库中识别出的合格候选人的比例。如果预测合格申请人的模型精度在各个方面之间存在差异,则这是一种偏差,其幅度由来衡量。DAR
分面 a 和 d 之间接受率差异的公式:
DAR= TPa/(TP a + FPa)-TPd/(TP d + FPd)
其中:
-
TPa 是分面 a 的真阳性预测值。
-
FPa 是分面 a 的假阳性预测值。
-
TPd 是分面 d 的真阳性预测值。
-
FPd 是分面 d 的假阳性预测值。
例如,假设该模型接受 70 名中年申请人(分面 a)申请贷款(预测阳性标签),其中只有 35 人实际被接受(观测阳性标签)。还假设该模型接受来自其他年龄人群(分面 d)的 100 名申请人申请贷款(预测阳性标签),其中只有 40 人实际被接受(观测阳性标签)。然后 DAR = 35/70-40/100 = 0.10,这表明第二年龄组的合格人群可能存在偏见(方面 d)。
二进制、多类别分面和连续标签的值范围为 [-1, +1]。DAR
-
当分面 a 的预测阳性结果(接受)与观测阳性结果(合格申请人)之比大于分面 d 的这一比率时,就会出现正值。这些值表示由于分面 d 中出现相对较多的假阳性,因此可能存在不利于不利分面 d 的偏差。比率的差异越大,表观偏差就越严重。
-
当分面 a 和 d 的预测阳性结果(接受)与观测阳性结果(合格申请人)之比具有相似的值时,就会出现接近零的值,这表明模型以同样的精度预测阳性结果的观测标签。
-
当分面 d 的预测阳性结果(接受)与观测阳性结果(合格申请人)之比大于分面 a 的这一比率时,就会出现负值。这些值表示由于分面 a 中出现相对较多的假阳性,因此可能存在不利于有利分面 a 的偏差。比率的差异越负,表观偏差就越严重。