翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
トレーニング後のデータとモデルバイアスメトリクス
Amazon SageMaker Clarify は、公平性のさまざまな概念を定量化するために、トレーニング後のデータとモデルバイアスのメトリクスを 11 個提供します。これらの概念をすべて同時に満たすことはできず、分析対象の潜在的なバイアスを含むケースの詳細に応じて選択されます。これらのメトリクスのほとんどは、異なる属性グループの二項分類混同行列から取得した数値の組み合わせです。公平性とバイアスは幅広いメトリクスで定義できるため、個々のユースケースに関連するメトリクスを理解し選択するには人間の判断が必要であり、顧客は適切なステークホルダーと相談して、その適用に適した公平性の尺度を決定する必要があります。
次の表記法を使用してバイアスメトリクスを説明します。ここでは二項分類の概念モデルについて説明します。この概念モデルでは、事象が、そのサンプル空間に正 (値 1) と負 (値 0) という 2 つの可能な結果のみでラベル付けされます。このフレームワークは通常、簡単な方法でマルチカテゴリ分類に拡張したり、必要に応じて連続的に数値化された結果を含むケースに拡張したりできます。二項分類の場合、正と負のラベルは、有利なファセット a と不利なファセット d の raw データセットに記録された結果に割り当てられます。これらのラベル y は、観測ラベルと呼ばれ、機械学習ライフサイクルのトレーニングまたは推論段階で機械学習モデルによって割り当てられる予測ラベル y' とは区別されます。これらのラベルは、それぞれのファセットの結果の確率分布 Pa(y) と Pd(y) を定義するために使用されます。
-
ラベル:
-
y は、トレーニングデータセット内のイベント結果の n 個の観測ラベルを表します。
-
y' は、データセットにある n 個の観察ラベルに対し、トレーニングされたモデルが予測したラベルを表します。
-
-
結果:
-
アプリケーションの承認など、サンプルの正の結果 (値 1)。
-
n(1) は、正の結果 (承認) の観測ラベルの数です。
-
n'(1) は、正の結果 (承認) の予測ラベルの数です。
-
-
アプリケーションの拒否など、サンプルの負の結果 (値 0)。
-
n(0) は、負の結果 (拒否) の観測ラベルの数です。
-
n'(0) は、負の結果 (拒否) の予測ラベルの数です。
-
-
-
ファセット値:
-
ファセット a - バイアスが有利になる属性を定義する特徴値。
-
na は、有利なファセット値の観測ラベルの数: na = na(1) + na(0) ファセット値 a の正と負の観測ラベルの合計。
-
n'a は、有利なファセット値の予測ラベルの数: n'a = n'a(1) + n'a(0) ファセット値 a の正と負の予測結果ラベルの合計。n'a = na であることに注意してください。
-
-
ファセット d - バイアスが不利になる属性を定義する特徴値。
-
nd は、不利なファセット値の観測ラベルの数: nd = nd(1) + nd(0) ファセット値 d の正と負の観測ラベルの合計。
-
n'd は、不利なファセット値の予測ラベルの数: n'd = n'd(1) + n'd(0) ファセット値 d の正と負の予測ラベルの合計。n'd = nd であることに注意してください。
-
-
-
ラベル付けされたファセットデータの結果の確率分布:
-
Pa(y) は、ファセット a の観測ラベルの確率分布です。バイナリラベル付きデータの場合、この分布は、総数に対する正の結果でラベル付けされたファセット a のサンプル数の比率 Pa(y1) = na(1)/ na と、総数に対する負の結果のサンプル数の比率 Pa(y0) = na(0)/ na で与えられます。
-
Pd(y) は、ファセット d の観測ラベルの確率分布です。バイナリラベル付きデータの場合、この分布は、総数に対する正の結果でラベル付けされたファセット d のサンプル数Pd(y1) = nd(1)/ nd と、総数に対する負の結果のサンプル数の比率Pd(y0) = nd(0)/ nd で与えられます。
-
次の表に、クイックガイダンス用のチートシートと、トレーニング後のバイアスメトリクスへのリンクを示します。
トレーニング後のバイアスメトリクス
トレーニング後のバイアスメトリクス | 説明 | 質問例 | メトリクス値の解釈 |
---|---|---|---|
予測ラベルの正の割合の差 (DPPL) | 有利なファセット a と不利なファセット d の間の正の予測の割合の差を測定します。 |
バイアスを示す可能性のある予測された正の結果において、属性グループ間で不均衡がありましたか。 |
正規化されたバイナリおよびマルチカテゴリファセットラベルの範囲: 連続ラベルの範囲: (-∞, +∞) 解釈:
|
異種影響 (DI) | 有利なファセット a と不利なファセット d の予測ラベルの比率を測定します。 | バイアスを示す可能性のある予測された正の結果において、属性グループ間で不均衡がありましたか。 |
正規化されたバイナリ、マルチカテゴリファセット、連続ラベルの範囲: [0,∞) 解釈:
|
予測ラベルの条件付き人口統計格差 (CDDPL) | ファセット全体だけでなく、サブグループ別の予測ラベルの格差を測定します。 | 一部の属性グループでは、ローン申請結果で、拒否の割合が承認の割合よりも大きいですか。 |
バイナリ、マルチカテゴリ、連続結果CDDPLの値の範囲:
|
反事実フリップテスト (FT) | ファセット d の各メンバーを調べ、ファセット a の類似メンバーが異なるモデル予測をしているかどうかを評価します。 | 特定の年齢層に属する 1 つのグループは、すべての特徴が異なる年齢層とほぼ一致しているのに、平均してより高い給料を支払われていますか。 | バイナリおよびマルチカテゴリファセットラベルの範囲は [-1,
+1] です。
|
精度差 (AD) | 有利なファセットと不利なファセットの予測精度の差を測定します。 | モデルは、すべての属性グループのアプリケーションのラベルを正確に予測しますか。 | バイナリおよびマルチカテゴリファセットラベルの範囲は [-1,
+1] です。
|
リコール差 (RD) | 有利なファセットと不利なファセットのモデルのリコールを比較します。 | ある属性は、別の属性と比較して、モデルのリコールが高いことに起因する、年齢ベースの融資のバイアスはありますか。 |
二項分類とマルチカテゴリ分類の範囲:
|
条件付き受け入れの違い (DCAcc) | 観測されたラベルを、モデルによって予測されたラベルと比較します。予測される肯定的な結果 (受け入れ) について、これがあらゆるファセットで同じかどうかを評価します。 | ある年齢層を別の年齢層と比較したとき、ローンが受理される頻度 (資格に基づく) は予測よりも多いですか、それとも少ないですか。 |
バイナリ、マルチカテゴリファセット、連続ラベルの範囲: (-∞, +∞)。
|
受け入れ率の差 (DAR) | 有利なファセットと不利なファセット間で、予測された陽性 (TP + FP) に対する観測された正の結果 (TP) の比率の差を測定します。 | すべての年齢グループにわたって対象となる申請者のローン承認を予測する場合、モデルの精度は同じですか。 | バイナリ、マルチカテゴリファセット、連続ラベルの範囲は [-1, +1] です。
|
特異度差 (SD) | 有利なファセットと不利なファセットの間でモデルの特異性を比較します。 | このモデルでは、ある年齢層の特異性が他の年齢層に比べて高いと予測されているため、融資に年齢に基づくバイアスはありますか。 |
二項分類とマルチカテゴリ分類の範囲:
|
条件付き拒否の違い (DCR) | 観測ラベルとモデルによって予測されたラベルと比較し、負の結果 (拒否) に対してファセット全体でこれが同じかどうかを評価します。 | ある属性で予測されるローン申請の拒否は、資格に基づく別の属性と比較して、多いですか少ないですか。 | バイナリ、マルチカテゴリファセット、連続ラベルの範囲: (-∞, +∞)。
|
拒否率の差 (DRR) | 不利なファセットと有利なファセット間で、予測された陰性 (TN + FN) に対する観測された負の結果 (TN) の比率の差を測定します。 | すべての属性にわたって対象外の申請者のローン拒否を予測する場合、モデルの精度は同じですか。 | バイナリ、マルチカテゴリファセット、連続ラベルの範囲は [-1, +1] です。
|
処理の同等性 (TE) | 有利なファセットと不利なファセット間の偽陽性と偽陰性の比率の差を測定します。 | ローン申請では、偽陽性と偽陰性の相対比率は、すべての属性で同じですか。 | バイナリおよびマルチカテゴリファセットラベルの範囲: (-∞, +∞)。
|
一般化エントロピー (GE) | モデル予測によって各入力に割り当てられた利益 b の不平等を測定します。 |
ローン申請分類の候補となる 2 つのモデルのうち、一方は望ましい結果の分布が他方よりも不均一になりますか。 | バイナリおよびマルチカテゴリファセットラベルの範囲は (0、0.5) です。モデルが誤判定のみを予測する場合、GE は定義されません。
|
トレーニング後のバイアスメトリクスの詳細については、「A Family of Fairness Measures for Machine Learning in Finance