特异性差异 (SD) - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

特异性差异 (SD)

特异性差异 (SD) 是有利分面 a 和不利分面 d 之间的特异性差异。特异性衡量模型正确预测阴性结果 (y'=0) 的频率。这些特异性的任何差异都是一种潜在的偏差。

如果某一分面的所有 y=0 案例都正确预测,则该分面的特异性是完美的。当模型尽可能地减少假阳性(即 I 型错误)时,特异性就会更高。例如,向分面 a 提供贷款的低特异性与向分面 d 提供贷款的高特异性之间的差异是衡量不利于分面 d 的偏差的一项指标。

以下公式用于计算分面 ad 的特异性差异。

        SD = TNd/(TN d + FPd)-TNa/(TN a + FPa) = TNR d-TNR a

用于计算 SD 的变量定义如下:

  • TNd 是分面 d 的真阴性预测值。

  • FPd 是分面 d 的假阳性预测值。

  • TNd 是分面 a 的真阴性预测值。

  • FPd 是分面 a 的假阳性预测值。

  • TNRa= TNa/(TN a + FPa) 是分面 a 的真实负比率,也称为特异性。

  • TNRd= TNd/(TN d + FPd) 是分面 d 的真实负比率,也称为特异性。

例如,考虑分面 ad 的以下混淆矩阵。

有利分面 a 的混淆矩阵

类 a 预测 实际结果 0 实际结果 1 Total
0 20 5 25
1 10 65 75
Total 30 70 100

不利分面 d 的混淆矩阵

类 d 预测 实际结果 0 实际结果 1 Total
0 18 7 25
1 5 20 25
Total 23 27 50

特异性差异值为 SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159,表示存在不利于分面 d 的偏差。

对于二进制和多类别分类,分面 ad 之间的特异性差异值范围为 [-1, +1]。此指标对连续标签不可用。以下是不同 SD 值的含义:

  • 当分面 d 的特异性高于分面 a 时,就会获得正值。这表明该模型发现分面 d 的假阳性少于分面 a 的假阳性。正值表示存在不利于分面 d 的偏差。

  • 接近零的值表示所比较的分面的特异性相似。这表明该模型在这两个分面发现的假阳性数量相似,没有偏差。

  • 当分面 a 的特异性高于分面 d 时,就会获得负值。这表明该模型发现分面 a 的假阳性多于分面 d 的假阳性。负值表示存在不利于分面 a 的偏差。