模型變數重要性 - Amazon Fraud Detector

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

模型變數重要性

模型變數重要性是 Amazon Fraud Detector 的一項功能,可在模型版本中對模型變數進行排名。每個模型變數都會根據其對您模型整體效能的相對重要性提供值。具有最高值的模型變數對於模型而言比該模型版本資料集中的其他模型變數更重要,預設會列在頂端。同樣地,具有最低值的模型變數預設會列在底部,與其他模型變數相比, 是不重要的。使用模型變數重要性值,您可以深入了解哪些輸入正在推動模型的效能。

您可以在 Amazon Fraud Detector 主控台或使用 DescribeModelVersion 檢視訓練模型版本的模型變數重要性值API。

模型變數重要性為用於訓練模型版本的每個變數提供下列一組值。

  • 變數類型:變數類型 (例如 IP 地址或電子郵件)。如需詳細資訊,請參閱變數類型。對於帳戶接管洞察 (ATI) 模型,Amazon Fraud Detector 為原始和彙總變數類型提供變數重要性值。原始變數類型會指派給您提供的變數。彙總變數類型會指派給一組 Amazon Fraud Detector 合併的原始變數,以計算彙總重要性值。

  • 變數名稱:用於訓練模型版本的事件變數名稱 (例如 ip_addressemail_address、)are_creadentials_valid。對於彙總變數類型,會列出用於計算彙總變數重要性值的所有變數名稱。

  • 變數重要性值:代表原始變數或彙總變數對模型效能相對重要性的數字。典型範圍:0–10

在 Amazon Fraud Detector 主控台中,線上詐騙洞見 (OFI) 或交易詐騙洞見 (TFI) 模型的模型變數重要性值顯示如下。Account Takeover Insight (ATI) 模型除了原始變數的重要性值之外,還會提供彙總的變數重要性值。視覺化圖表可讓您輕鬆查看具有垂直虛線的變數之間的相對重要性,並提供最高排名變數的重要性值參考。

模型變數重要性圖表。

Amazon Fraud Detector 會為每個 Fraud Detector 模型版本產生可變重要性值,無需額外費用。

重要

2021 年 7 月 9 日之前建立的模型版本沒有可變重要性值。您必須訓練新版本的模型,才能產生模型變數重要性值。

使用模型變數重要性值

您可以使用模型變數重要性值來深入了解驅動模型效能的因素,以及哪些變數貢獻最大。然後調整您的模型以改善整體效能。

更具體地說,為了改善模型效能,請針對訓練資料中的網域知識和偵錯問題檢查可變重要性值。例如,如果使用帳戶 ID 做為模型的輸入,且其列在頂端,請查看其可變重要性值。如果變數重要性值明顯高於其餘值,則您的模型可能會過度適應特定的詐騙模式 (例如,所有詐騙事件都來自相同的帳戶 ID)。不過,如果變數取決於詐騙標籤,也可能發生標籤洩漏的情況。根據您的網域知識分析結果,您可能想要移除變數並使用更多樣化的資料集進行訓練,或保持模型不變。

同樣地,請查看上次排名的變數。如果變數重要性值明顯低於其餘值,則此模型變數在訓練模型時可能沒有任何重要性。您可以考慮移除變數來訓練更簡單的模型版本。如果您的模型只有幾個變數,例如只有兩個變數,Amazon Fraud Detector 仍會提供變數重要性值並對變數進行排名。不過,在此情況下,洞察會受到限制。

重要
  1. 如果您注意到模型變數重要性圖表中缺少變數,這可能是下列其中一個原因所造成。請考慮修改資料集中的變數,並重新訓練模型。

    • 訓練資料集中變數的唯一值計數低於 100。

    • 訓練資料集缺少大於 0.9 的變數值。

  2. 每次您想要調整模型的輸入變數時,都需要訓練新的模型版本。

評估模型變數重要性值

我們建議您在評估模型變數重要性值時考慮下列事項:

  • 變數重要性值必須一律與網域知識結合評估。

  • 檢查變數的變數重要性值,相對於模型版本中其他變數的變數重要性值。請勿單獨考慮單一變數的變數重要性值。

  • 比較相同模型版本中變數的變數重要性值。請勿比較不同模型版本中相同變數的變數重要性值,因為模型版本中變數的變數重要性值可能與不同模型版本中相同變數的值不同。如果您使用相同的變數和資料集來訓練不同的模型版本,這不一定會產生相同的變數重要性值。

檢視模型變數重要性排名

模型訓練完成後,您可以在 Amazon Fraud Detector 主控台或使用 DescribeModelVersion 檢視訓練模型版本的模型變數重要性排名API。

若要使用主控台檢視模型變數重要性排名,
  1. 開啟 AWS 主控台並登入您的帳戶。導覽至 Amazon Fraud Detector。

  2. 在左側導覽窗格中選擇 Models (模型)

  3. 選擇您的模型,然後選擇您的模型版本。

  4. 確定已選取概觀索引標籤。

  5. 向下捲動以檢視模型變數重要性窗格。

了解模型變數重要性值的計算方式

完成每個模型版本訓練後,Amazon Fraud Detector 會自動產生模型變數重要性值和模型的效能指標。為此,Amazon Fraud Detector 使用 SHapley Additive exPlanations (SHAP)。 基本上SHAP是在考慮所有模型變數的所有可能組合之後,模型變數的平均預期貢獻。

SHAP 首先指派每個模型變數的貢獻,以預測事件。然後,它會彙總這些預測,以在模型層級建立變數的排名。若要為預測指派每個模型變數的貢獻, 會SHAP考慮所有可能的變數組合之間的模型輸出差異。透過包含或移除特定變數集以產生模型輸出的所有可能性, SHAP可以準確存取每個模型變數的重要性。當模型變數彼此高度相關時,這一點尤其重要。

在大多數情況下,ML 模型不允許您移除變數。反之,您可以將模型中已移除或遺失的變數取代為一或多個基準的對應變數值 (例如非詐騙事件)。選擇適當的基準執行個體可能很困難,但 Amazon Fraud Detector 將此基準設定為您的人口平均值,讓這項操作變得簡單。