疑難排解 - Amazon Fraud Detector

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解

以下各節可協助您疑難排解使用 Amazon Fraud Detector 時可能遇到的問題

排解訓練資料問題

使用本節中的資訊,協助診斷和解決您在訓練模型時,Amazon Fraud Detector 主控台的模型訓練診斷窗格中可能會看到的問題。

模型訓練診斷窗格中顯示的問題分類如下。解決此問題的要求取決於問題的類別。

  • Error icon 錯誤-導致模型訓練失敗。必須解決這些問題,模型才能成功訓練。

  • Warning icon 警告-使模型訓練繼續進行,但是某些變數可能會在訓練過程中排除。請查看本節中的相關指引,以改善資料集的品質。

  • Information icon 資訊 (資訊)-對模型訓練沒有影響,且所有變數都用於訓練。我們建議您查看本節中的相關指南,以進一步改善資料集的品質和模型效能。

在給定的數據集不穩定的欺詐率

問題類型:錯誤

Description

給定數據中的欺詐率隨著時間的推移過於不穩定。請確保您的欺詐和合法事件隨著時間的推移均勻採樣。

原因

如果資料集中的詐騙和合法事件分佈不均,而且是從不同的時段擷取,就會發生這個錯誤。Amazon Fraud Detector 模型訓練程序會根據 EVENT_TIMESTAMP 對您的資料集進行範例和分區 例如,如果您的資料集包含從過去 6 個月擷取的詐騙事件,但只包含最後一個月的合法事件,則該資料集會被視為不穩定。不穩定的資料集可能會導致模型效能評估出現偏差。

解決方案

確保從同一時間段提供欺詐和合法事件數據,並且欺詐率不會隨著時間的推移而發生巨大變化。

資料不足

  1. 問題類型:錯誤

    Description

    少於 50 列會被標記為詐騙事件。確保詐騙和合法事件都超過 50 次的最低數量,然後重新訓練模型。

    原因

    如果您的資料集標記為詐騙事件的事件少於模型訓練所需的事件,就會發生此錯誤。Amazon Fraud Detector 至少需要 50 個詐騙事件來訓練您的模型。

    解決方案

    請確定您的資料集包含至少 50 個詐騙事件。如果需要,您可以通過覆蓋更長的時間來確保這一點。

  2. 問題類型:錯誤

    Description

    少於 50 個資料列會標示為合法事件。確保欺詐和合法事件都超過 $ 閾值的最低計數,並重新訓練模型。

    原因

    如果您的資料集具有標記為合法的事件少於模型訓練所需的事件,就會發生此錯誤。Amazon Fraud Detector 至少需要 50 個合法事件來訓練您的模型。

    解決方案

    請確定您的資料集包含至少 50 個合法事件。如果需要,您可以通過覆蓋更長的時間來確保這一點。

  3. 問題類型:錯誤

    Description

    與欺詐相關的唯一實體數量少於 100。考慮包括更多欺詐實體的例子,以提高績效。

    原因

    如果您的資料集具有詐騙事件的實體少於模型訓練所需的實體,就會發生此錯誤。交易欺詐見解(TFI)模型要求至少 100 個發生欺詐事件的實體,以確保欺詐空間的最大覆蓋範圍。如果所有欺詐事件都是由一小群實體執行,則該模型可能無法很好地概括起來。

    解決方案

    請確定您的資料集包含至少 100 個發生詐騙事件的實體。如果需要,您可以確保這覆蓋更長的時間段。

  4. 問題類型:錯誤

    Description

    與合法關聯的唯一實體數量少於 100。請考慮加入更多合法實體的範例,以提升效能。

    原因

    如果您的資料集具有合法事件的實體少於模型訓練所需的實體,就會發生此錯誤。交易欺詐見解(TFI)模型要求至少 100 個具有合法事件的實體,以確保欺詐空間的最大覆蓋範圍。如果所有合法事件都是由一小群實體執行,則該模型可能無法很好地推廣。

    解決方案

    請確定您的資料集包含至少 100 個具有合法事件的實體。如果需要,您可以確保這覆蓋更長的時間段。

  5. 問題類型:錯誤

    Description

    資料集中的資料列少於 100 個。請確定總資料集中有 100 個以上的資料列,而且至少 50 列被標記為詐騙資料列。

    原因

    如果您的資料集包含少於 100 筆記錄,就會發生這個錯誤。Amazon Fraud Detector 需要資料集中至少 100 個事件 (記錄) 中的資料,以進行模型訓練。

    解決方案

    請確定您的資料集中有來自 100 個以上事件的資料。

缺少或不同的事件標籤值

  1. 問題類型:錯誤

    Description

    大於 1% 的 EVENT_LABEL 資料欄為空值,或是模型組態中定義的值以外的值。$label_values請確保 EVENT_LABEL 欄中缺少於 1% 的值,而且這些值是在模型組態中定義的值。$label_values

    原因

    發生這個錯誤是因為下列其中一個原因:

    • 包含訓練資料的 CSV 檔案中,超過 1% 的記錄在「EVENT_LABEL」欄中缺少值。

    • 包含訓練資料的 CSV 檔案中,超過 1% 的記錄在 EVENT_LABEL 欄中的值與與您的事件類型相關聯的記錄不同。

    線上詐騙洞察 (OFI) 模型要求每筆記錄中的 EVENT_LABEL 資料欄填入其中一個與您的事件類型相關聯的標籤 (或對應)。CreateModelVersion

    解決方案

    如果此錯誤是由於缺少 EVENT_LABEL 值,請考慮為這些記錄指派適當的標籤,或從資料集中刪除這些記錄。如果此錯誤是因為某些記錄的標籤不在其中label_values,請確定將 EVENT_LABEL 欄中的所有值新增至事件類型的標籤,並在建立模型時對應至詐騙或合法 (詐騙、合法)。

  2. 問題類型:資訊

    Description

    您的 EVENT_LABEL 資料欄包含非模型組態中定義的空值或標籤值。$label_values這些不一致的值在培訓之前被轉換為「不欺詐」。

    原因

    您會因為下列其中一個原因而取得此資訊:

    • CSV 檔案中包含訓練資料的記錄中,少於 1% 的「EVENT_LABEL」欄中缺少值

    • 包含訓練資料的 CSV 檔案中,少於 1% 的記錄在 EVENT_LABEL 欄中的值與與事件類型相關聯的值不同。

    在這兩種情況下的模型培訓將成功。但是,那些缺少或未映射標籤值的事件的標籤值會轉換為合法的。如果您認為這是一個問題,請按照下面提供的解決方案進行操作。

    解決方案

    如果資料集中缺少 EVENT_LABEL 值,請考慮從資料集中刪除這些記錄。如果為這些 EVENT_LABELS 提供的值未對應,請確定所有這些值都對應至每個事件的詐騙或合法 (詐騙、合法)。

缺少或不正確的事件時間戳記值

  1. 問題類型:錯誤

    Description

    您的訓練資料集包含含有不符合接受格式的時間戳記的 EVENT_TIMESTAMP。確保格式是接受的日期/時間戳記格式之一。

    原因

    如果 EVENT_TIMESTAMP 資料行包含的值不符合 Amazon Fraud Detector 支援的時間戳記格式,就會發生此錯誤。

    解決方案

    請確定為 EVENT_TIMESTAMP 資料行提供的值符合支援的時間戳記格式。如果 EVENT_TIMESTAMP 欄中缺少值,您可以使用支援的時間戳記格式回填具有值的值,或考慮完全刪除事件,而不必輸入字串,例如none、或。null missing

  2. 問題類型:錯誤

    您的訓練資料集包含具有缺少值的事件 _ 時間戳記。請確定您沒有遺漏值。

    原因

    如果資料集中的 EVENT_TIMESTAMP 資料行缺少值,就會發生這個錯誤。Amazon Fraud Detector 要求資料集中的 EVENT_TIMESTAMP 資料行具有值。

    解決方案

    請確定資料集中的 EVENT_TIMESTAMP 資料行具有值,且這些值符合支援的時間戳記格式。如果 EVENT_TIMESTAMP 欄中缺少值,您可以使用支援的時間戳記格式回填具有值的值,或考慮完全刪除事件,而不必輸入字串,例如none、或。null missing

未擷取資料

問題類型:錯誤

Description

找不到用於訓練的攝入事件,請檢查您的訓練配置。

原因

如果您建立的模型包含使用 Amazon Fraud Detector 儲存的事件資料,但在開始訓練模型之前並未將資料集匯入 Amazon Fraud Detector,就會發生此錯誤。

解決方案

使用 SendEvent Amazon Fraud Detector 主控台中的 CreateBatchImportJob API 操作、API 操作或批次匯入功能,先匯入事件資料,然後訓練模型。如需詳細資訊,請參閱儲存的事件資料

注意

我們建議您在資料匯入完成後等待 10 分鐘,然後再使用資料訓練模型。

您可以使用 Amazon Fraud Detector 主控台來檢查每個事件類型已存放的事件數量。如需詳細資訊,請參閱檢視已儲存事件的指標。

變數不足

問題類型:錯誤

Description

資料集必須包含至少 2 個適合訓練的變數。

原因

如果您的資料集包含少於 2 個適用於模型訓練的變數,就會發生這個錯誤。Amazon Fraud Detector 只會在通過所有驗證的情況下,才會考慮適合模型訓練的變數。如果變數驗證失敗,則會在模型訓練中排除該變數,而且您會在模型訓練診斷中看到訊息。

解決方案

請確定您的資料集至少有兩個填入值的變數,並通過所有資料驗證。請注意,您提供資料欄標題 (EVENT_TIMT_ID、ENTTY_ID、EVENT_LABEL 等) 的事件中繼資料列不會被視為變數。

缺少或不正確的變數類型

問題類型:警告

Description

的預期資料類型$variable_name為「數字」。在資料集$variable_name中檢閱和更新,然後重新訓練模型。

原因

如果變數定義為 NUMERIC 變數,但在資料集中,它的值無法轉換為 NUMERIC,就會收到此警告。因此,模型訓練中會排除該變數。

解決方案

如果要將其保留為 NUMERIC 變量,請確保您提供的值可以轉換為浮點數。請注意,如果變數包含缺少的值,請勿使用nonenenull或之類的字串填入它們missing。如果變數確實包含非數值,請將其重新建立為分類或 FREE_FORM_TEXT 變數類型。

缺少變數值

問題類型:警告

Description

訓練資料集中$variable_name缺少的大於的$threshold值。請考慮$variable_name在資料集中修改並重新訓練以改善效能。

原因

如果由於缺少值過多而丟棄指定的變量,則會收到此警告。Amazon Fraud Detector 允許缺少變數的值。但是,如果一個變數有太多的缺失值,它不會對模型有太多貢獻,而且該變數會在模型訓練中捨棄。

解決方案

首先,請確認那些缺失的值不是由於資料收集和準備中的錯誤所致。如果它們是錯誤的,那麼您可以考慮將它們從模型訓練中刪除。但是,如果您確實認為那些缺失的值很有價值,並且仍想要保留該變數,則可以在模型訓練和即時推論中使用常數來手動填入缺失值。

唯一變數值不足

問題類型:警告

Description

的唯一值的計$variable_name數低於 100。在資料集$variable_name中檢閱和更新,然後重新訓練模型。

原因

如果指定變數的唯一值數目小於 100,則會收到此警告。臨界值會根據變數類型而有所不同。具有極少數唯一值的情況下,存在資料集的一般性不足以涵蓋該變數的功能空間的風險。因此,該模型可能無法在實時預測中很好地概括起來。

解決方案

首先,確保變量分佈是代表真正的業務流量。然後,您可以採用具有較高基數的更精細訓練的變量,例如使用full_customer_name而不是first_namelast_name單獨使用,或者將變量類型更改為 CAREGARICAL,這樣可以使基數較低。

變數運算式不正

  1. 問題類型:資訊

    Description

    大於 50% 的$email_variable_name值不符合預期的規則運算式 http://emailregex.com。請考慮$email_variable_name在資料集中修改並重新訓練以改善效能。

    原因

    如果資料集中超過 50% 的記錄具有不符合規則電子郵件運算式的電子郵件值,因此驗證失敗,就會顯示此資訊。

    解決方案

    格式化電子郵件變數值以符合規則運算式。如果缺少電子郵件值,我們建議將其保留空白,而不要用字串 (例如nonenull、或) 填入missing

  2. 問題類型:資訊

    Description

    大於 50% 的$IP_variable_name值與 IPv4 或 IPv6 位址的規則運算式不符。commonly-used-regex https://digitalfortress.tech/tricks/top-15 請考慮$IP_variable_name在資料集中修改並重新訓練以改善效能。

    原因

    如果資料集中 50% 以上的記錄具有不符合規則 IP 運算式的 IP 值,因此驗證失敗,就會顯示此資訊。

    解決方案

    格式化 IP 值以符合規則運算式。如果缺少 IP 值,我們建議將它們保留空白,而不要用字串 (例如nonenull、或) 填入missing

  3. 問題類型:資訊

    Description

    大於 50% 的$phone_variable_name值與基本電話正則表達式 /$ 模式/不匹配。請考慮$phone_variable_name在資料集中修改並重新訓練以改善效能。

    原因

    如果資料集中超過 50% 的記錄包含不符合一般電話號碼運算式的電話號碼,因此驗證失敗,就會顯示此資訊。

    解決方案

    格式化電話號碼以符合規則運算式。如果缺少電話號碼,我們建議將它們留空,而不要用字符串填充none,例如null,或missing

唯一實體不足

問題類型:資訊

Description

唯一實體的數目小於 1500。請考慮加入更多資料以改善效能。

原因

如果資料集的唯一實體數目少於建議數目,就會顯示此資訊。交易詐騙洞察 (TFI) 模型同時使用時間序列彙總和一般交易功能來提供最佳效能。如果您的資料集具有太少的唯一實體,則大部分的一般資料 (例如 IP_ADDRESS、EMAIL_ADDRESS) 可能沒有唯一的值。然後,還有一個風險,即此數據集不足以涵蓋該變量的功能空間。因此,該模型可能無法很好地概括來自新實體的交易。

解決方案

包括更多實體。視需要延長訓練資料的時間範圍。