交易詐騙洞見 - Amazon Fraud Detector

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

交易詐騙洞見

Transaction Fraud Insights 模型類型旨在偵測線上 card-not-present或交易詐騙。Transaction Fraud Insights 是受監督的機器學習模型,這表示它使用詐騙和合法交易的歷史範例來訓練模型。

Transaction Fraud Insights 模型使用機器學習演算法的集合,以進行資料擴充、轉換和詐騙分類。它利用特徵工程引擎來建立實體層級和事件層級彙總。作為模型訓練程序的一部分, Transaction Fraud Insights 會使用第三方資料來豐富原始資料元素,例如 IP 地址和BIN號碼,例如 IP 地址的地理位置或信用卡的發行銀行。除了第三方資料之外, Transaction Fraud Insights 還使用深度學習演算法,將 Amazon 所見的詐騙模式納入考量,而 AWS 這些詐騙模式會使用梯度樹增強演算法成為模型的輸入功能。

為了提高效能, Transaction Fraud Insights 會透過貝葉斯最佳化程序最佳化梯度樹狀增強演算法的超參數,依序訓練數十種不同模型,並搭配不同的模型參數 (例如樹狀目錄數量、樹狀結構深度、每個葉子的樣本數量),以及不同的最佳化策略,例如加權少數族群以處理極低的詐騙率。

作為模型訓練程序的一部分,交易詐騙模型的特徵工程引擎會計算訓練資料集內每個唯一實體的值,以協助改善詐騙預測。例如,在訓練過程中,Amazon Fraud Detector 會計算和存放實體上次進行購買的時間,並在每次呼叫 GetEventPredictionSendEvent 時動態更新此值API。在詐騙預測期間,事件變數會與其他實體和事件中繼資料結合,以預測交易是否詐騙。

選取資料來源

Transaction Fraud Insights 模型僅針對使用 Amazon Fraud Detector (INGESTED_EVENTS) 內部存放的資料集進行訓練。這可讓 Amazon Fraud Detector 持續更新您正在評估之實體的計算值。如需可用資料來源的詳細資訊,請參閱 事件資料儲存體

準備資料

在您訓練交易詐騙洞見模型之前,請確定您的資料檔案包含準備事件資料集中所述的所有標頭。Transaction Fraud Insights 模型會將接收的新實體與資料集中的詐騙和合法實體範例進行比較,因此為每個實體提供許多範例很有幫助。

Amazon Fraud Detector 會自動將儲存的事件資料集轉換為正確的訓練格式。模型完成訓練後,您可以檢閱效能指標,並判斷是否應將實體新增至訓練資料集。

選取資料

根據預設,交易詐騙洞見會針對您選取的事件類型,針對您的整個儲存資料集進行訓練。您可以選擇性地設定時間範圍,以減少用於訓練模型的事件。設定時間範圍時,請確定用於訓練模型的記錄有足夠的時間成熟。也就是說,已超過足夠的時間,以確保正確識別合法和詐騙記錄。例如,針對扣款詐騙,通常需要 60 天或更久的時間才能正確識別詐騙事件。為了獲得最佳模型效能,請確定訓練資料集中的所有記錄都已成熟。

您不需要選取代表理想詐騙率的時間範圍。Amazon Fraud Detector 會自動取樣您的資料,以達到詐騙率、時間範圍和實體計數之間的平衡。

如果您在模型訓練期間選取事件不足而無法成功訓練模型的時間範圍,Amazon Fraud Detector 會傳回驗證錯誤。對於儲存的資料集,EVENT_LABEL 欄位是選用的,但事件必須加上標籤,才能包含在訓練資料集中。設定模型訓練時,您可以選擇是否忽略未標記的事件、擔任未標記事件的合法標籤,或擔任未標記事件的詐騙標籤。

事件變數

用於訓練模型的事件類型必須包含至少 2 個變數,除了必要的事件中繼資料之外,這些變數已通過資料驗證,且最多可包含 100 個變數。一般而言,您提供的變數越多,模型越能區分詐騙和合法事件。雖然 Transaction Fraud Insight 模型可以支援數十個變數,包括自訂變數,但我們建議您包含 IP 地址、電子郵件地址、付款工具類型、訂單價格和卡片 BIN。

驗證資料

作為訓練程序的一部分, Transaction Fraud Insights 會驗證訓練資料集是否有可能影響模型訓練的資料品質問題。驗證資料後,Amazon Fraud Detector 會採取適當的動作來建置最佳的可能模型。這包括發出潛在資料品質問題的警告、自動移除具有資料品質問題的變數,或發出錯誤並停止模型訓練程序。如需詳細資訊,請參閱資料集驗證

如果唯一實體的數量小於 1,500,Amazon Fraud Detector 會發出警告,但會繼續訓練模型,因為這可能會影響訓練資料的品質。如果您收到警告,請檢閱效能指標