特異度差 (SD)

特異度差 (SD) とは、有利なファセット a と不利なファセット d の特異度の差です。特異度は、モデルが負の結果 (y'=0) を正しく予測する頻度を測定します。これらの特異度の差は、バイアスの潜在的な形です。

特異度は、すべての y=0 のケースがそのファセットに対して正しく予測されている場合に、そのファセットに最適です。Type I エラーと呼ばれる偽陽性をモデルが最小化すると、特異度は高くなります。例えば、ファセット a へのローンの特異度が低いことと、ファセット d へのローンの特異度が高いことの違いは、ファセット d に対するバイアスの尺度です。

次の式は、ファセット a と d の特異度の違いを示しています。

SD = TN_d/(TN_d + FP_d) - TN_a/(TN_a + FP_a) = TNR_d - TNR_a

SD の計算に使用される以下の変数は、次のように定義されます。

TN_d は、ファセット d に対して予測される真陰性です。
FP_d は、ファセット d に対して予測される偽陽性です。
TN_d は、ファセット a に対して予測される真陰性です
FP_d は、ファセット a に対して予測される偽陽性です。
TNR_a = TN_a/(TN_a + FP_a) は、ファセット a の真の陰性率 (特異度とも呼ばれる) です。
TNR_d = TN_d/(TN_d + FP_d) は、ファセット d の真の陰性率 (特異度とも呼ばれる) です。

例えば、ファセット a と d について、次の混同行列を考えてみます。

有利なファセット a の混同行列

クラス a の予測	実際の結果 0	実際の結果 1	Total
0	20	5	25
1	10	65	75
Total	30	70	100

不利なファセット d の混同行列

クラス d の予測	実際の結果 0	実際の結果 1	Total
0	18	7	25
1	5	20	25
Total	23	27	50

特異度差の値は SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159 で、これはファセット d に対するバイアスを示しています。

二項分類とマルチカテゴリ分類のファセット a と d 間の特異度の差の値の範囲は、[-1, +1] です。このメトリクスは、連続ラベルの場合には使用できません。SD のさまざまな値が意味するものは次のとおりです。

正の値は、ファセット a よりもファセット d の方が、特異度が高い場合に得られます。このことから、モデルではファセット d の偽陽性がファセット a よりも少ないことが示唆されます。正の値はファセット d に対するバイアスを示します。
ゼロに近い値は、比較されるファセットの特異度が類似していることを示します。これは、モデルが両方のファセットでほぼ同数の偽陽性を検出し、バイアスがないことを示唆しています。
負の値は、ファセット d よりもファセット a の方が、特異度が高い場合に得られます。このことから、モデルではファセット a の偽陽性がファセット d よりも多いことが示唆されます。負の値はファセット a に対するバイアスを示します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

条件付き拒否の差 (DCR)

リコール差 (RD)