予測ラベルの条件付き人口統計格差 (CDDPL) - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

予測ラベルの条件付き人口統計格差 (CDDPL)

人口統計格差メトリクス (DDPL) は、ファセット d が予測された拒否ラベルの割合が、予測された受け入れられたラベルの割合よりも大きいかどうかを決定します。これにより、ファセット全体で予測される拒否率と承認率の差を比較できます。このメトリクスは、観測されたラベルではなく予測されたラベルから計算される点を除いて、トレーニング前のCDDメトリクスとまったく同じです。このメトリクスは、(-1,+1) の範囲にあります。

ファセット d のラベルに対する属性格差予測の計算式は次のとおりです。

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = P dR (y'0) - P dA (y'1

コードの説明は以下のとおりです。

  • n'(0) = n'a(0) + n'd(0) は、ファセット a と d の予測された拒否ラベルの数です。

  • n'(1) = n'a(1) + n'd(1) は、ファセット a と d の予測された承認ラベルの数です。

  • PdR(y'0) は、ファセット d の予測された拒否ラベル (値 0) の割合です。

  • PdA(y'1) は、ファセット d の予測された承認ラベル (値 1) の割合です。

Simpson のパラドックスを除外するには、データセット上のサブグループの階層を定義する属性DDPLを条件とする予測ラベル (CDDPL) メトリクスの条件付き属性格差が必要です。再グループ化により、有利でないファセットの明らかな属性格差の原因についてインサイトを得ることができます。典型的な例は、バークレー校の入試で、男性の方が女性よりも全体的に合格率が高かったというものです。しかし、学科別のサブグループを調べると、学科別では女性の方が男性よりも高い合格率であることが示されました。その説明は、女性は男性よりも合格率の低い学科に志願していたということでした。サブグループ別の合格率を調べると、合格率の低い学科では、実際に女性の方が男性よりも高い合格率であることがわかりました。

CDDPL メトリクスは、データセットの属性によって定義されるサブグループで見つかったすべての格差を、平均化して 1 つの測定を提供します。これは、各サブグループの予測ラベル (DDPLi) の属性格差の加重平均として定義され、各サブグループ格差は に含まれる観測数に比例して加重されます。予測ラベルの条件付き属性格差の計算式は次のとおりです。

        CDDPL = (1/n)*i∑ni *DDPLi

コードの説明は以下のとおりです。

  • ini = n は、観測値の総数であり、niは、各サブグループの観測値の数です。

  • DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = P iR (y'0) - P iA (y'1) は、サブグループの予測ラベルの属性格差です。

したがって、予測ラベル (DDPLi) のサブグループの人口統計学的格差は、予測された拒否ラベルの割合と、各サブグループの予測された受け入れられたラベルの割合の差です。

バイナリ、マルチカテゴリ、連続結果DDPLの値の範囲は [-1,+1] です。

  • +1: ファセット a またはサブグループに対して予測された拒否ラベルがなく、ファセット d またはサブグループに対して予測された承認がない場合。

  • 正の値は、ファセット d またはサブグループが、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいため、予測ラベルに属性格差があることを示します。値が大きいほど、格差が大きくなります。

  • ゼロに近い値は、平均して属性格差がないことを示します。

  • 負の値は、ファセット d またはサブグループが、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいため、予測ラベルに属性格差があることを示します。値が小さいほど、格差が大きくなります。

  • -1: ファセット d またはサブグループに対して予測された拒否ラベルがなく、ファセット a またはサブグループに対して予測された承認がない場合。