總變化距離 (TVD) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

總變化距離 (TVD)

總變化距離資料偏差量度量 (TVD) 是 L 1 規範的一半。方面 TVD ad 的標籤結果的概率分佈之間可能的最大差異。L1-範數是 Hamming 距離,透過確定將一個字串更改為另一個字串所需的最小替代數,比較兩個二進位資料字串的指標。如果這些字串是彼此的副本,它會決定複製時發生的錯誤數量。在偏壓偵測環境中,TVD量化方面 a 中必須變更多少結果才能符合方面 d 中的結果。

總變化距離的公式如下:

        TVD= ½ *1 (Pa, Pd)

例如,假設您在大學招生多類情況中具有三個類別的結果分布,yi = {y0, y1, y2} = {接受、候補清單、拒絕}。您需要計算每個結果的方面 ad 的計TVD數之間的差異。結果如下所示:

        L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|

其中:

  • na(i) 是構面 a 中第 i 個類別結果的數目:例如 n a(0) 是構面 a 的接受數目。

  • nd(i) 是構面 d 中第 i 個類別結果的數目:例如 nd(2) 是構面 d 的拒絕數目。

    二進位、多類別和連續結果的TVD值範圍為 [0, 1),其中:

    • 接近零的值表示標籤的分布類似。

    • 正值表示標籤分布發散,正值越大發散越大。