本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
線上詐騙洞見
Online Fraud Insights 是一種受監督的機器學習模型,這表示它使用詐騙和合法交易的歷史範例來訓練模型。線上詐騙洞見模型可以根據很少的歷史資料偵測詐騙。模型的輸入具有彈性,因此您可以進行調整,以偵測各種詐騙風險,包括仿造評論、促銷濫用和訪客結帳詐騙。
Online Fraud Insights 模型使用機器學習演算法的集合,以進行資料擴充、轉換和詐騙分類。作為模型訓練程序的一部分,Online Fraud Insights 會使用第三方資料來豐富原始資料元素,例如 IP 地址和 BIN 號碼,例如 IP 地址的地理位置或信用卡的發行銀行。除了第三方資料之外,線上詐騙洞見還使用深度學習演算法,將 Amazon 和 所見的詐騙模式納入考量 AWS。這些詐騙模式會使用漸層樹增強演算法,成為模型的輸入功能。
為了提高效能,線上 Fraud Insights 會透過貝葉斯最佳化程序來最佳化漸層樹狀增強演算法的超參數。它會依序訓練數十種具有不同模型參數的不同模型 (例如樹的數量、樹的深度,以及每個分葉的樣本數量)。它也使用不同的最佳化策略,例如增加少數族群詐騙人口的權重,以處理極低的詐騙率。
選取資料來源
訓練線上詐騙洞見模型時,您可以選擇針對存放在外部 (Amazon Fraud Detector 外部) 或存放在 Amazon Fraud Detector 中的事件資料來訓練模型。Amazon Fraud Detector 目前支援的外部儲存體是 Amazon Simple Storage Service (Amazon S3)。如果您的 使用外部儲存,您的事件資料集必須以逗號分隔值 (CSV) 格式上傳至 Amazon S3 儲存貯體。在模型訓練組態中,這些資料儲存選項稱為 EXTERNAL_EVENTS (適用於外部儲存) 和 INGESTED_EVENTS (適用於內部儲存)。如需可用資料來源以及如何將資料存放在其中的詳細資訊,請參閱事件資料儲存。
準備資料
無論您選擇存放事件資料的位置為何 (Amazon S3 或 Amazon Fraud Detector),線上詐騙洞見模型類型的要求都相同。
您的資料集必須包含資料欄標頭 EVENT_LABEL。此變數會將事件分類為詐騙或合法。使用 CSV 檔案 (外部儲存) 時,您必須為檔案中的每個事件包含 EVENT_LABEL。對於內部儲存,EVENT_LABEL 欄位是選用的,但所有事件都必須加上標籤,才能包含在訓練資料集內。設定模型訓練時,您可以選擇是否忽略未標記的事件、擔任未標記事件的合法標籤,或擔任所有未標記事件的詐騙標籤。
選取資料
請參閱收集事件資料,以取得選擇資料以訓練線上詐騙洞見模型的相關資訊。
Online Fraud Insights 訓練會根據 EVENT_TIMESTAMP 處理範例和分割歷史資料。您不需要手動取樣資料,這樣做可能會對您的模型結果產生負面影響。
事件變數
除了必要的事件中繼資料之外,線上詐騙洞見模型至少需要兩個變數,這些變數已通過模型訓練的資料驗證,每個模型最多允許 100 個變數。一般而言,您提供的變數越多,模型越能區分詐騙和合法事件。雖然 Online Fraud Insights 模型可以支援數十個變數,包括自訂變數,但我們建議您包含 IP 地址和電子郵件地址,因為這些變數通常最有效地識別要評估的實體。
驗證資料
在訓練程序中,線上詐騙洞見會驗證資料集,找出可能影響模型訓練的資料品質問題。驗證資料之後,Amazon Fraud Detector 將採取適當的動作來建置最佳的模型。這包括發出潛在資料品質問題的警告、自動移除具有資料品質問題的變數,或發出錯誤並停止模型訓練程序。如需詳細資訊,請參閱資料集驗證。