本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
柯爾莫哥洛夫-斯米爾諾夫 (KS)
柯爾莫哥洛夫-斯米爾諾夫偏差量指標 (KS) 等於資料集構面 a 和 d 的分布中標籤的最大發散。 SageMaker Clarify 實作的雙樣本 KS 測試會尋找最不平衡的標籤,來補充標籤不平衡的其他測量。
柯爾莫哥洛夫-斯米爾諾夫指標的公式如下:
KS = max(|Pa(y) - Pd(y)|)
例如,假設一組申請人 (構面 a) 被大學拒絕,候補或接受分別為 40%、40%、20%,其他申請人 (構面 d) 的比率為 20%、10%、70%。然後,柯爾莫哥洛夫-斯米爾諾夫偏差指標值如下所示:
KS = max(|0.4-0.2|, |0.4-0.1|, |0.2-0.7|) = 0.5
這告訴我們構面分布之間的最大發散是 0.5,且發散是發生在接受率。方程式中有三項,因為標籤是基數 3 的多元分類。
二進位、多類別和連續性結果的 LP 值範圍為 [0, +1],其中:
-
接近零的值顯示標籤在所有結果類別的構面之間均勻分布。例如,申請貸款的兩個構面都獲得了 50% 的接受率和 50% 的拒絕。
-
一個附近的值顯示一個結果的標籤都在一個構面。例如,構面 a 獲得了 100% 的接受,而構面 d 沒有。
-
間歇值顯示最大標籤不平衡的相對程度。