特異性差異 (SD) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

特異性差異 (SD)

特異性差異 (SD) 是有利構面 a 和不利構面 d 之間的特異性差異。特異性測量模型正確預測負值結果的頻率 (y'=0)。這些特異性的任何差異都是一種潛在的偏差形式。

如果所有 y = 0 情況都正確地預測了該構面,那麼特異性對於構面來說是完美的。當模型最小化偽陽性 (稱為第一型錯誤) 時,特異性會更大。例如,向構面 a 貸款的低特異性和向構面 d 貸款的高特異性之間的差異是針對構面 d 的偏差量值。

以下公式用於構面 ad 的特異性之間的差異。

        SD = TN d/(TNd + FP d) - TN a/(TNa + FP a) = TNRd - TNRa

下列用於計算 SD 的變數定義如下:

  • TNd 是構面 d 預測的真陰性。

  • FPd 是構面 d 預測的偽陽性。

  • TNd 是構面 a 預測的真陰性。

  • TNd 是構面 a 預測的偽陽性。

  • TNRa = TN a/(TNa + FP a) 是面向 a 的真負率,也稱為特異性。

  • TNRd = TN d/(TNd + FP d) 是面向 d 的真實負數率,也稱為特異性。

例如,請考慮下列構面 ad 的混淆矩陣。

混淆矩陣針對有利構面 a

類別 a 預測 實際結果 0 實際結果 1 總計
0 20 5 25
1 10 65 75
總計 30 70 100

混淆矩陣針對不利構面 d

類別 d 預測 實際結果 0 實際結果 1 總計
0 18 7 25
1 5 20 25
總計 23 27 50

特異性差異的值為SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159,顯示對構面 d 的偏差。

對於二進位和多類別分類的構面 ad 之間特異性差值的範圍是 [-1, +1]。此指標不適用於連續性標籤的情況。下述 SD 的不同值意義:

  • 當構面 d 的特異性高於構面 a 的特異性時,會獲得正值。這表明模型在構面 d 發生的偽陽性比構面 a 少。正值顯示構面 d 的偏差。

  • 接近零的值顯示正在比較的構面特異性相似。這表明模型在這兩個構面都發現了相似數目的偽陽性,並且沒有偏差。

  • 當構面 a 的特異性高於構面 d 時,會獲得負值。這表明模型在構面 a 發生的偽陽性比構面 d 多。負值顯示構面 a 的偏差。