使用塑形值的特徵屬性 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用塑形值的特徵屬性

SageMaker Clarify 根據 Shapley 值 的概念提供功能屬性。您可以使用夏普利值來決定每個特徵對模型預測所做的貢獻。可以針對特定的預測和整體模型的全體層級提供這些屬性。例如,如果您使用 ML 模型進行大學入學,則說明可協助判斷 GPA或 SAT分數是否為模型預測中最負責任的特徵,然後您可以判斷每個特徵對於決定特定學生的入學決定的責任。

SageMaker Clarify 已從遊戲理論中了解 Shapley 值的概念,並將其部署在機器學習內容中。夏普利值提供了一種量化每個玩家對遊戲貢獻的方法,因此可以根據他們的貢獻將遊戲產生的總收益分配給玩家。在此機器學習內容中, SageMaker Clarify 會將指定執行個體上的模型預測視為遊戲,並將模型中包含的功能視為播放器對於第一個近似值,您可能會試圖透過量化從模型中捨棄該特徵或從模型中捨棄所有其他特徵的結果,來確定每個特徵的邊際貢獻或效果。但是,此方法並不考慮模型中包含的特徵通常彼此不獨立。例如,如果兩個特徵高度相關,則捨棄其中一個特徵可能不會大幅改變模型預測。

為了解決這些潛在的相依性,夏普利值請求必須考慮每個可能特徵組合 (或結合) 的結果,以確定每個特徵的重要性。特定 d 特徵,有 2 d 這種可能的特徵組合,每個都對應到一個潛在的模型。若要確定特定特徵 f 的歸因,請考慮在所有不包含 f 的特徵組合 (和關聯的模型) 中包含 f 的邊際貢獻,並取平均值。可以證明,夏普利值是分配滿足某些所需屬性之每個特徵的貢獻或重要性的獨特方式。特別是,每個特徵的夏普利值總和對應到模型預測與無特徵的虛擬模型之間的差異。然而,即使對於合理的價值 d,比如說 50 個特徵,計算上是無法負擔且不切實際訓練 2d 可能的模型。因此, SageMaker Clarify 需要利用各種近似技術。為此, SageMaker Clarify 使用 Shapley Additive exPlanations (SHAP),其中包含這類近似值,並透過其他最佳化設計了核心SHAP演算法的可擴展且高效率的實作。

有關夏普利值的其他資訊,請參閱模型預測的統一解釋方法