合計変動距離 (TVD) - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

合計変動距離 (TVD)

変動距離データバイアスメトリクス (TVD) の合計は L 1-norm の半分です。TVD は、ファセット ad のラベル結果の確率分布の最大の違いです。L1- ノルムはハミング距離であり、1 つの文字列を別の文字列に変更するのに必要な置換の最小数を決定することにより、2 つのバイナリデータ文字列を比較するために使用されるメトリクスです。文字列が互いにコピーされる場合は、コピー時に発生したエラーの数を決定します。バイアス検出コンテキストでは、 は、ファセット d TVD の結果と一致するように を変更する必要があるファセットの結果の数を定量化します。

合計変動距離の計算式は次のとおりです。

        TVD = ½*L 1(P a、P d

例えば、大学入試のマルチカテゴリシナリオで、3 つのカテゴリ (yi = {y0, y1, y2} = {合格, 補欠, 不合格}) の結果分布があるとします。を計算するには、結果ごとにファセット ad のカウントの差を取りますTVD。結果は次のようになります。

        L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|

コードの説明は以下のとおりです。

  • na(i) は、ファセット a の i 番目のカテゴリの結果の数です。例えば、na(0) は、ファセット a の承認の数です。

  • nd(i) は、ファセット d の i 番目のカテゴリの結果の数です。例えば、nd(2) は、ファセット d の拒否の数です。

    バイナリ、マルチカテゴリ、連続結果TVDの値の範囲は [0、1) で、ここで次のようになります。

    • ゼロに近い値は、ラベルが同様に分布していることを意味します。

    • 正の値は、ラベル分布の発散を意味し、正の値が大きいほど発散が大きくなります。