予測ラベルの条件付き属性格差 (CDDPL)

属性格差メトリクス (DDPL) は、ファセット d が、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいかどうかを決定します。これにより、ファセット全体で予測される拒否率と承認率の差を比較できます。このメトリクスは、観測ラベルではなく予測ラベルから計算される点を除いて、トレーニング前の CDD メトリクスとまったく同じです。このメトリクスは、(-1,+1) の範囲にあります。

ファセット d のラベルに対する属性格差予測の計算式は次のとおりです。

DDPL_d = n'_d⁽⁰⁾/n'⁽⁰⁾ - n'_d⁽¹⁾/n'⁽¹⁾ = P_d^R(y'⁰) - P_d^A(y'¹)

コードの説明は以下のとおりです。

n'⁽⁰⁾ = n'_a⁽⁰⁾+ n'_d⁽⁰⁾ は、ファセット a と d の予測された拒否ラベルの数です。
n'⁽¹⁾ = n'_a⁽¹⁾+ n'_d⁽¹⁾ は、ファセット a と d の予測された承認ラベルの数です。
P_d^R(y'⁰) は、ファセット d の予測された拒否ラベル (値 0) の割合です。
P_d^A(y'¹) は、ファセット d の予測された承認ラベル (値 1) の割合です。

シンプソンのパラドックスを除外するには、データセット上のサブグループの層を定義する属性に対して DDPL を条件付ける予測ラベルの条件付き属性格差 (CDDPL) メトリクスが必要です。再グループ化により、有利でないファセットの明らかな属性格差の原因についてインサイトを得ることができます。典型的な例は、バークレー校の入試で、男性の方が女性よりも全体的に合格率が高かったというものです。しかし、学科別のサブグループを調べると、学科別では女性の方が男性よりも高い合格率であることが示されました。その説明は、女性は男性よりも合格率の低い学科に志願していたということでした。サブグループ別の合格率を調べると、合格率の低い学科では、実際に女性の方が男性よりも高い合格率であることがわかりました。

CDDPL メトリクスは、データセットの属性によって定義されたサブグループに見られる格差をすべて平均化することで、1 つの測定値を提供します。これは、各サブグループの予測ラベル (DDPL_i) における属性格差の加重平均として定義され、各サブグループの格差は、含まれる観測値の数に比例して加重されます。予測ラベルの条件付き属性格差の計算式は次のとおりです。

CDDPL = (1/n)_*∑_in_i _*DDPL_i

コードの説明は以下のとおりです。

∑_in_i = n は、観測値の総数であり、n_iは、各サブグループの観測値の数です。
DDPL_i = n'_i⁽⁰⁾/n⁽⁰⁾ - n'_i⁽¹⁾/n⁽¹⁾ = P_i^R(y'⁰) - P_i^A(y'¹) は、サブグループの予測ラベルにおける属性格差です。

したがって、予測ラベルにおけるサブグループの属性格差 (DDPL_i) は、各サブグループの予測された拒否ラベルの割合と承認ラベルの割合の差です。

バイナリ、マルチカテゴリ、連続結果の DDPL 値の範囲は、[-1,+1] です。

+1: ファセット a またはサブグループに対して予測された拒否ラベルがなく、ファセット d またはサブグループに対して予測された承認がない場合。
正の値は、ファセット d またはサブグループが、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいため、予測ラベルに属性格差があることを示します。値が大きいほど、格差が大きくなります。
ゼロに近い値は、平均して属性格差がないことを示します。
負の値は、ファセット d またはサブグループが、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいため、予測ラベルに属性格差があることを示します。値が小さいほど、格差が大きくなります。
-1: ファセット d またはサブグループに対して予測された拒否ラベルがなく、ファセット a またはサブグループに対して予測された承認がない場合。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

処理の同等性 (TE)

反事実フリップテスト (FT)