接受率的差異 (DAR) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

接受率的差異 (DAR)

接受率 (DAR) 指標的差異,是針對構面 ad 所觀察到的正值 (TP + FP) 預測與觀察到的正值 (TP + FP) 比率的差異。此指標會測量模型精確度的差異,以預測這兩個構面的接受次數。精確度會測量由模型定義的合格申請人池,其中的合格申請人分數。如果用於預測合格申請者的模型精確度在各個面向之間存在差異,則這是偏差,其大小由 測量DAR。

構面 ad 間的接受率差異公式:

        DAR = TP a/(TPa + FP a) - TP d/(TPd + FP d

其中:

  • TPa 是構面 a 預測的真陽性。

  • FPa 是構面 a 預測的偽陽性。

  • TPd 是構面 d 預測的真陽性。

  • FPd 是構面 d 預測的偽陽性。

例如,假設該模型接受 70 名中年申請人(構面 a)的貸款申請 (預測正值標籤),其中只有 35 人實際接受 (觀察正值標籤)。還假設該模型接受其他年齡人口統計學 (構面 d) 的 100 位申請人貸款 (預測陽性標籤),其中只有 40 人實際接受 (觀察正值標籤)。然後 DAR = 35/70 - 40/100 = 0.10,這表示對第二個年齡群組 (面向 d) 合格人員的潛在偏差。

DAR 二進位、多類別構面和連續標籤的值範圍為 【-1, +1】。

  • 當構面 a 的預測陽性 (接受次數) 與觀察正值結果 (合格申請人) 的比率大於構面 d 的相同比率時,會出現正值。這些值顯示由於在構面 d 中發生相對較多偽陽性,導致對不利構面 d 可能產生偏差。比率的差異越大,明顯的偏差越極端。

  • 當構面s ad 的預測陽性 (接受次數) 與觀察正值結果 (合格的申請人) 的比率具有類似的值,表示正值結果的觀察標籤以具有相等精確度的模型預測,會出現接近零的值。

  • 當構面 d 的預測陽性 (接受次數) 與觀察正結果 (合格申請人) 的比率大於構面 a 的比率時,會出現負值。這些值顯示由於在構面 a 中發生相對較多偽陽性,導致對有利構面 a 可能產生偏差。比率的差異值越負,明顯的偏差就越極端。