建立 CSV 檔案 - Amazon Fraud Detector

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 CSV 檔案

Amazon Fraud Detector 要求 CSV 檔案的第一列包含欄標題。CSV 檔案中的欄標題必須對應至事件類型中定義的變數。如需資料集範例,請參閱取得並上傳範例資料集

線上詐騙深入分析模型需要具有至少 2 個變數和 100 個變數的訓練資料集。除了事件變數之外,訓練資料集還必須包含下列標題:

  • 事件 _ 時間戳記-定義事件發生時的時間戳記

  • 事件標籤-將事件分類為詐騙或合法。欄中的值必須與事件類型中定義的值相對應。

下列 CSV 資料範例代表來自線上商家的歷史註冊事件:

EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
注意

CSV 資料檔案可以包含雙引號和逗號做為資料的一部分。

對應事件類型的簡化版本如下所示。事件變數對應於 CSV 檔案中的標頭,中的值EVENT_LABEL對應於標籤清單中的值。

( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )

事件時戳記格式

請確定您的事件時間戳記是必要的格式。作為模型構建過程的一部分,在線欺詐洞察模型類型會根據事件時間戳記對您的數據進行排序,並將您的數據分割用於培訓和測試目的。為了獲得公平的效能估計,模型會先在訓練資料集上進行訓練,然後在測試資料集上測試此模型。

Amazon Fraud Detector 支援模型訓練期間值的下列日期/時EVENT_TIMESTAMP間戳記格式:

  • %YY-%MM-%Dt%HH: %mm: %ssz (國際標準時間僅在世界標準時間內使用 ISO 8601 標準,沒有毫秒)

    範例:2019-11-30T13:凌晨 1 時

  • %yyyy/%mm/%dd %hh:% 公釐:% ss (上午/下午)

    例子:下午一時三十一分或十一月三十一日

  • %mm/%dd/%yyyy %hh:% 毫米:%

    例子:11 月 30 日下午 1 時 1 分 1 分,十一月三十日

  • % 毫米 /%dd/%yy %hh:% 毫米:% ss

    例子:十一月三十一日下午一時零一分,十一月三十一日

Amazon Fraud Detector 在剖析事件時間戳記的日期/時間戳記格式時,會進行下列假設:

  • 如果您使用的是 ISO 8601 標準,它必須完全符合上述規格

  • 如果您使用的是其他格式之一,還有額外的靈活性:

    • 對於月份和日期,您可以提供單一或兩位數字。例如,2019 年 1 月 12 日為有效日期。

    • 你不需要包括 hh: mm: ss,如果你沒有他們 (所以, 你可以簡單地提供一個日期). 您也可以提供小時和分鐘的子集 (例如 hh: mm)。不支持只提供小時。毫秒也不受支援。

    • 如果您提供 AM/PM 標籤,則假設為 12 小時制。如果沒有 AM/PM 資訊,則假設為 24 小時制。

    • 您可以使用「/」或「-」作為日期元素的分隔符。假定為時間戳元素「:」。

跨時間取樣資料集

我們建議您提供相同時間範圍內的欺詐和合法樣本的示例。例如,如果您提供過去 6 個月的詐騙事件,您也應該提供平均跨越相同時段的合法事件。如果您的資料集包含高度不均勻的詐騙和合法事件分佈,您可能會收到下列錯誤訊息:「不同時間的詐騙散佈情形不可接受。無法正確分割資料集。」 通常,此錯誤最簡單的解決方法是確保在相同的時間範圍內均勻地採樣欺詐事件和合法事件。如果您在短時間內遭遇大量欺詐,則可能還需要刪除數據。

如果您無法生成足夠的數據來創建均勻分佈的數據集,則一種方法是隨機化事件的 EVENT_TIMESTAMP,使其均勻分佈。不過,這通常會導致效能指標不切實際,因為 Amazon Fraud Detector 使用 EVENT_TIMESTAMP 來評估資料集中適當事件子集的模型。

空值和缺少值

亞馬遜 Fraud Detector 處理空值和缺失值。但是,變量的空值百分比應該受到限制。「事件時間戳記」和「事件 _ 標籤」欄不應包含任何遺漏的值。

檔案驗證

如果觸發下列任何一種條件,Amazon Fraud Detector 將無法訓練模型:

  • 如果無法剖析 CSV

  • 如果資料行的資料類型不正確