予測ラベルの条件付き属性格差 (CDDPL) - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

予測ラベルの条件付き属性格差 (CDDPL)

属性格差メトリクス (DDPL) は、ファセット d が、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいかどうかを決定します。これにより、ファセット全体で予測される拒否率と承認率の差を比較できます。このメトリクスは、観測ラベルではなく予測ラベルから計算される点を除いて、トレーニング前の CDD メトリクスとまったく同じです。このメトリクスは、(-1,+1) の範囲にあります。

ファセット d のラベルに対する属性格差予測の計算式は次のとおりです。

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1)

コードの説明は以下のとおりです。

  • n'(0) = n'a(0) + n'd(0) は、ファセット a と d の予測された拒否ラベルの数です。

  • n'(1) = n'a(1) + n'd(1) は、ファセット a と d の予測された承認ラベルの数です。

  • PdR(y'0) は、ファセット d の予測された拒否ラベル (値 0) の割合です。

  • PdA(y'1) は、ファセット d の予測された承認ラベル (値 1) の割合です。

シンプソンのパラドックスを除外するには、データセット上のサブグループの層を定義する属性に対して DDPL を条件付ける予測ラベルの条件付き属性格差 (CDDPL) メトリクスが必要です。再グループ化により、有利でないファセットの明らかな属性格差の原因についてインサイトを得ることができます。典型的な例は、バークレー校の入試で、男性の方が女性よりも全体的に合格率が高かったというものです。しかし、学科別のサブグループを調べると、学科別では女性の方が男性よりも高い合格率であることが示されました。その説明は、女性は男性よりも合格率の低い学科に志願していたということでした。サブグループ別の合格率を調べると、合格率の低い学科では、実際に女性の方が男性よりも高い合格率であることがわかりました。

CDDPL メトリクスは、データセットの属性によって定義されたサブグループに見られる格差をすべて平均化することで、1 つの測定値を提供します。これは、各サブグループの予測ラベル (DDPLi) における属性格差の加重平均として定義され、各サブグループの格差は、含まれる観測値の数に比例して加重されます。予測ラベルの条件付き属性格差の計算式は次のとおりです。

        CDDPL = (1/n)*ini *DDPLi

コードの説明は以下のとおりです。

  • ini = n は、観測値の総数であり、niは、各サブグループの観測値の数です。

  • DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) は、サブグループの予測ラベルにおける属性格差です。

したがって、予測ラベルにおけるサブグループの属性格差 (DDPLi) は、各サブグループの予測された拒否ラベルの割合と承認ラベルの割合の差です。

バイナリ、マルチカテゴリ、連続結果の DDPL 値の範囲は、[-1,+1] です。

  • +1: ファセット a またはサブグループに対して予測された拒否ラベルがなく、ファセット d またはサブグループに対して予測された承認がない場合。

  • 正の値は、ファセット d またはサブグループが、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいため、予測ラベルに属性格差があることを示します。値が大きいほど、格差が大きくなります。

  • ゼロに近い値は、平均して属性格差がないことを示します。

  • 負の値は、ファセット d またはサブグループが、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいため、予測ラベルに属性格差があることを示します。値が小さいほど、格差が大きくなります。

  • -1: ファセット d またはサブグループに対して予測された拒否ラベルがなく、ファセット a またはサブグループに対して予測された承認がない場合。