本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
概要
對於什麼是可解釋的模型,或者哪些信息足以作為模型的解釋,沒有普遍接受的定義。本指南著重於常用的特徵重要性概念,其中使用每個輸入特徵的重要性分數來解釋其對模型輸出的影響。這種方法提供了見解,但也需要謹慎。功能重要性分數可能會產生誤導,應仔細分析,包括在可能的情況下與主題專家進行驗證。具體來說,我們建議您不要在未經驗證的情況下信任功能重要性分數,因為誤解可能會導致不良的業務決策。
在下圖中,虹膜的測量特徵會傳遞至預測植栽種類的模型中,並顯示此預測的相關特徵重要性 (SHAP 屬性)。在這種情況下,花瓣長度,花瓣寬度和萼片長度都對鳶尾花的分類有積極貢獻,但萼片寬度具有負面貢獻。(此信息基於 [4] 中的虹膜數據集。)
特徵重要性分數可以是全域的,表示分數對於所有輸入或局部的模型都有效,表示分數適用於單一模型輸出。通常會調整局部特徵重要性分數並加總以產生模型輸出值,因此稱為屬性。簡單模型被認為更容易解釋,因為輸入特徵對模型輸出的影響更容易理解。例如,在線性回歸模型中,係數的大小提供整體圖徵重要性評分,對於給定的預測,局部圖徵歸因是其係數和圖徵值的乘積。如果預測沒有直接的本機特徵重要性分數,您可以從一組基準線輸入特徵計算重要性分數,以瞭解特徵如何相對於基準線的貢獻。