本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SHAP 可解釋性的基準
如前所述,可解釋性通常是相反的 (也就是說,其說明偏離基準的情況)。因此,對於相同的模型預測,您可以期望獲得相對於不同基準的不同解釋。因此,您選擇的基準至關重要。在機器學習 (ML) 的情境中,基準會對應至可能無資訊或資訊豐富的假設執行個體。在計算 Shapley 值時, SageMaker Clarify 會在基準與指定執行個體之間產生數個新執行個體,其中缺少特徵,透過將特徵值設定為基準特徵值來建模,並透過將特徵值設定為指定執行個體的特徵值來建模。因此,沒有所有特徵對應到基準,並且所有特徵的存在對應到特定執行個體。
您如何選擇好的基準? 通常需要選擇具有非常低資訊內容的基準。例如,您可以透過取得數值特徵的中位數或平均值以及分類特徵的模式,從訓練資料集建構平均執行個體。對於大學招生的範例,您可能有興趣解釋與平均申請人的基準接受率相比,為什麼特定申請人被接受了。如果未提供, SageMaker Clarify 會使用輸入資料集中的 K 平均值或 K 原型自動計算基準。
或者,您也可以選擇產生資訊基準的說明。對於大學招生的情況,您可能想解釋為什麼與有相似人口統計背景的其他申請人相比,某特定申請人被拒絕了。在這種情況下,您可以選擇代表關注的申請人基準,即有類似人口統計背景的申請人。因此,您可以使用資訊性基準,將分析集中在特定模型預測的特定面向。您可以將人口統計屬性和其他不符合您的特徵設定為與指定執行個體相同的值,以隔離要評估的特徵。