条件付き属性格差 (CDD)

属性格差メトリクス (DD) は、ファセットが、データセット内の拒否された結果の割合が承認された結果の割合よりも大きいかどうかを決定します。例えば、男性と女性の 2 つのファセットがデータセットを構成する二項ケースでは、不利なファセットには facet d というラベルが付けられ、有利なファセットには facet a というラベルが付けられます。例えば、大学入試の場合、女性の不合格者が 46％で、合格者が 32％しかいないとすると、不合格者の割合が合格者の割合を上回っているため、属性格差があると言えます。この場合、女性の応募者にはファセット d というラベルが付けられます。男性の志願者が、不合格となった志願者の 54%、合格した志願者の 68% を占めていた場合、不合格率は合格率よりも低いため、このファセットには属性格差はないと言えます。この場合、男性の志願者にはファセット a というラベルが付けられます。

有利でないファセット d の属性格差の計算式は次のとおりです。

DD_d = n_d⁽⁰⁾/n⁽⁰⁾ - n_d⁽¹⁾/n⁽¹⁾ = P_d^R(y⁰) - P_d^A(y¹)

コードの説明は以下のとおりです。

n⁽⁰⁾ = n_a⁽⁰⁾+ n_d⁽⁰⁾ は、有利なファセット a と不利なファセット d のデータセットのうち拒否された結果の総数です。
n⁽¹⁾ = n_a⁽¹⁾+ n_d⁽¹⁾ は、有利なファセット a と不利なファセット d のデータセットのうち拒否された結果の総数です。
P_d^R(y⁰) は、ファセット d で拒否された結果 (値 0) の割合です。
P_d^A(y¹) は、ファセット d で承認された結果 (値 1) の割合です。

大学入試の例では、属性格差は DD_d = 0.46 - 0.32 = 0.14 です。男性の場合 DD_a = 0.54 - 0.68 = - 0.14 です。

シンプソンのパラドックスを除外するには、データセット上のサブグループの層を定義する属性に対して DD を条件付ける条件付き属性格差 (CDD) メトリクスが必要です。再グループ化により、有利でないファセットの明らかな属性格差の原因についてインサイトを得ることができます。典型的な例は、バークレー校の入試で、男性の方が女性よりも全体的に合格率が高かったというものです。この場合の統計量は DD の計算例で使用されました。しかし、学科別のサブグループを調べると、学科別に条件付けするとは女性の方が男性よりも高い合格率であることが示されました。その説明は、女性は男性よりも合格率の低い学科に志願していたということでした。サブグループ別の合格率を調べると、合格率の低い学科では、実際に女性の方が男性よりも高い合格率であることがわかりました。

CDD メトリクスは、データセットの属性によって定義されたサブグループに見られる格差をすべて平均化することで、1 つの測定値を提供します。これは、各サブグループの属性格差 (DD_i) の加重平均として定義され、各サブグループの格差は、含まれる観測値の数に比例して重み付けされます。条件付き属性格差の計算式は次のとおりです。

CDD = (1/n)_*∑_in_i _*DD_i

コードの説明は以下のとおりです。

∑_in_i = n は、観測値の総数であり、n_iは、各サブグループの観測値の数です。
DD_i = n_i⁽⁰⁾/n⁽⁰⁾ - n_i⁽¹⁾/n⁽¹⁾ = P_i^R(y⁰) - P_i^A(y¹) は、i 番目のサブグループの属性格差です。

サブグループの属性格差 (DD_i) は、各サブグループの拒否された結果の割合と承認された結果の割合の差です。

データセット全体の DD_d またはその条件付きサブグループ DD_i の二項結果の DD 値の範囲は [-1, +1] です。

+1: ファセット a またはサブグループに拒否がなく、ファセット d またはサブグループに承認がない場合
正の値は、データセット内のファセット d として属性格差がないことを示します。つまり、データセット内のサブグループで、拒否された結果の割合が、承認された結果の割合よりも大きいことを示します。値が高くなるほどファセットは不利になり、不均衡が大きくなります。
負の値は、データセット内のファセット d として属性格差がないことを示します。つまり、データセット内のサブグループで、承認された結果の割合が、拒否された結果の割合よりも大きいことを示します。値が低いほど、ファセットは有利になります。
-1: ファセット d またはサブグループに拒否がなく、ファセット a またはサブグループに承認がない場合

何も条件付けしない場合、DPL がゼロの場合に限り、CDD はゼロになります。

このメトリクスは、EU および英国の非差別法および法学における直接差別、間接差別、客観的正当化の概念を調査するのに有用です。詳細については、「公平性を自動化できない理由」を参照してください。この論文には、学部の入学率サブグループに基づく条件付けがシンプソンのパラドックスをどのように示しているかを示す、バークレー大学の入学事例に関する関連データと分析も含まれています。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

コルモゴロフスミルノフ (KS)

SageMaker Studio でトレーニング前のデータのバイアスに関するレポートを生成する