予測ラベルの正の割合の差 (DPPL）

予測ラベル (DPPL) メトリクスの正の割合の差によって、モデルがファセットごとに異なる結果を予測するかどうかが決まります。これは、ファセット a の正の予測の比率 (y' = 1) とファセット d の正の予測の比率 (y' = 1) の差として定義されます。例えば、モデル予測が中高年グループ (ファセット a) の 60% と他の年齢グループ (ファセット d) の 50% にローンを許可する場合、ファセット d に対しバイアスされている可能性があります。この例では、バイアスのケースに対して 10% の差が重要かどうかを判断する必要があります。

トレーニング前バイアスの尺度であるラベルの割合 (DPL) とトレーニング後バイアスのDPPL尺度の差を比較して、トレーニング後にデータセットに最初に存在する正の割合のバイアスが変化するかどうかを評価します。DPPL がより大きい場合DPL、正の割合のバイアスはトレーニング後に増加します。DPPL がより小さい場合DPL、モデルはトレーニング後に正の割合でバイアスを増加させませんでした。DPL とを比較DPPLしても、モデルがすべてのディメンションに沿ったバイアスを減らすとは限りません。例えば、反事実フリップテスト (FT)やなどの他のメトリクスを考慮すると、モデルにバイアスがかかる可能性があります精度差 (AD)。バイアス検出の詳細については、ブログ記事「Amazon SageMaker Clarify がバイアスの検出にどのように役立つかを学ぶ」を参照してください。の詳細についてはラベルの割合の差 (DPL）、「」を参照してくださいDPL。

の式DPPLは次のとおりです。

DPPL = q'_a - q'_d

コードの説明は以下のとおりです。

q'_a = n'_a⁽¹⁾/n_a は、値 1 の正の結果を得るファセット a の予測される割合です。この例では、ローンが許可されると予測される中高年ファセットの割合です。ここで、n'_a⁽¹⁾ は、値 1 の正の予測結果を得るファセット a のメンバー数を表し、n_a は、ファセット a のメンバー数を表します。
q'_d = n'_d⁽¹⁾/n_d は、値 1 の正の結果を得るファセット d の予測される割合です。この例では、高齢者と若年者のファセットがローンを許可されると予測しています。ここで、n'_d⁽¹⁾ は、正の予測結果を得るファセット d のメンバー数を表し、n_d は、ファセット d のメンバー数を表します。

DPPL が 0 に十分近い場合、トレーニング後の属性パリティが達成されたことを意味します。

バイナリファセットラベルとマルチカテゴリファセットラベルの場合、正規化されたDPL値は間隔 [-1, 1] の範囲です。連続ラベルの場合、値は間隔 (-∞, +∞) で変化します。

正のDPPL値は、ファセット d と比較して、ファセット a が予測された正の結果の割合が高いことを示します。

これは、正のバイアスと呼ばれます。
ゼロDPPLに近い値は、ファセット a と d の間の予測陽性結果の割合がより等しく、ゼロの値は完全な属性パリティを示します。
負のDPPL値は、ファセット d がファセット a と比較して予測された正の結果の割合が高いことを示します。これは、負のバイアスと呼ばれます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トレーニング後のデータとモデルバイアスメトリクス

異種影響 (DI)