本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
特异性差异 (SD)
特异性差异 (SD) 是有利分面 a 和不利分面 d 之间的特异性差异。特异性衡量模型正确预测阴性结果 (y'=0) 的频率。这些特异性的任何差异都是一种潜在的偏差。
如果某一分面的所有 y=0 案例都正确预测,则该分面的特异性是完美的。当模型尽可能地减少假阳性(即 I 型错误)时,特异性就会更高。例如,向分面 a 提供贷款的低特异性与向分面 d 提供贷款的高特异性之间的差异是衡量不利于分面 d 的偏差的一项指标。
以下公式用于计算分面 a 和 d 的特异性差异。
SD = TNd/(TN d + FPd)-TNa/(TN a + FPa) = TNR d-TNR a
用于计算 SD 的变量定义如下:
-
TNd 是分面 d 的真阴性预测值。
-
FPd 是分面 d 的假阳性预测值。
-
TNd 是分面 a 的真阴性预测值。
-
FPd 是分面 a 的假阳性预测值。
-
TNRa= TNa/(TN a + FPa) 是分面 a 的真实负比率,也称为特异性。
-
TNRd= TNd/(TN d + FPd) 是分面 d 的真实负比率,也称为特异性。
例如,考虑分面 a 和 d 的以下混淆矩阵。
有利分面 a
的混淆矩阵
类 a 预测 | 实际结果 0 | 实际结果 1 | Total |
---|---|---|---|
0 | 20 | 5 | 25 |
1 | 10 | 65 | 75 |
Total | 30 | 70 | 100 |
不利分面 d
的混淆矩阵
类 d 预测 | 实际结果 0 | 实际结果 1 | Total |
---|---|---|---|
0 | 18 | 7 | 25 |
1 | 5 | 20 | 25 |
Total | 23 | 27 | 50 |
特异性差异值为 SD = 18/(18+5) - 20/(20+10) = 0.7826
- 0.6667 = 0.1159
,表示存在不利于分面 d 的偏差。
对于二进制和多类别分类,分面 a 和 d 之间的特异性差异值范围为 [-1, +1]
。此指标对连续标签不可用。以下是不同 SD 值的含义:
-
当分面 d 的特异性高于分面 a 时,就会获得正值。这表明该模型发现分面 d 的假阳性少于分面 a 的假阳性。正值表示存在不利于分面 d 的偏差。
-
接近零的值表示所比较的分面的特异性相似。这表明该模型在这两个分面发现的假阳性数量相似,没有偏差。
-
当分面 a 的特异性高于分面 d 时,就会获得负值。这表明该模型发现分面 a 的假阳性多于分面 d 的假阳性。负值表示存在不利于分面 a 的偏差。