異種影響 (DI)
予測ラベルメトリクスの正の比率の差は、比率の形式で評価できます。
予測ラベルメトリクスの正の比率の比較は、予測ラベルにおける正の比率の差 (DPPL)の場合のように、差としてではなく、比率の形式で評価できます。異種影響 (DI) メトリクスは、ファセット a の正の予測 (y' = 1) の割合に対するファセット d の正の予測 (y' = 1) の割合の比率として定義されます。例えば、モデル予測が中高年グループ (ファセット a) の 60% とその他の年齢グループ (ファセット d) の 50% にローンを許可する場合、DI = .5/.6 = 0.8 となり、ファセット d で表される他の中高年グループに対して正のバイアスと悪影響があることが示されます。
予測ラベルの比率の計算式は次のとおりです。
DI = q'd/q'a
コードの説明は以下のとおりです。
-
q'a = n'a(1)/na は、値 1 の正の結果を得るファセット a の予測される割合です。この例では、ローンが許可されると予測される中高年ファセットの割合です。ここで、n'a(1) は、正の予測結果を得るファセット a のメンバー数を表し、na は、ファセット a のメンバー数を表します。
-
q'd = n'd(1)/nd は、値 1 の正の結果を得るファセット d の予測される割合です。この例では、高齢者と若年者のファセットがローンを許可されると予測しています。ここで、n'd(1) は、正の予測結果を得るファセット d のメンバー数を表し、nd は、ファセット d のメンバー数を表します。
バイナリ、マルチカテゴリファセット、連続ラベルの場合、DI 値は間隔 [0, ∞) の範囲にあります。
-
1 より小さい値は、ファセット a が、ファセット d よりも予測される正の結果の割合が高いことを示します。これは、正のバイアスと呼ばれます。
-
値 1 は、属性パリティを示します。
-
1 より大きい値は、ファセット d が、ファセット a よりも予測される正の結果の割合が高いことを示します。これは、負のバイアスと呼ばれます。