事件資料集 - Amazon Fraud Detector

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

事件資料集

事件資料集是貴公司的歷史詐騙資料。您將此資料提供給 Amazon Fraud Detector,以建立詐騙偵測模型。

Amazon Fraud Detector 使用機器學習模型來產生詐騙預測。每個模型都使用模型類型進行訓練。模型類型指定用於訓練模型的演算法和轉換。模型訓練是使用您提供的資料集來建立可預測詐騙事件的模型的程序。如需詳細資訊,請參閱 Amazon FraFraud Detector 的運作方

用於創建欺詐檢測模型的數據集提供了事件的詳細信息。事件是評估詐騙風險的商業活動。例如,帳戶註冊可以是一個事件。與帳戶註冊事件相關聯的資料可以是事件資料集。Amazon Fraud Detector 會使用此資料集來評估帳戶註冊詐騙。

在將資料集提供給 Amazon Fraud Detector 以建立模型之前,請務必定義建立模型的目標。您還需要確定如何使用模型,並定義指標,以根據您的特定需求評估模型是否正在執行。

例如,您建立評估帳戶註冊詐騙的詐騙偵測模型的目標如下:

  • 自動核准合法註冊。

  • 捕獲欺詐性註冊以供日後調查。

確定目標後,下一步就是決定要如何使用模型。以下是使用欺詐檢測模型評估註冊欺詐的一些示例:

  • 用於每個帳戶註冊的實時欺詐檢測。

  • 每小時離線評估所有帳戶註冊。

以下是一些可用來測量模型效能的量度範例:

  • 在生產環境中的執行效能一致優於目前的基準。

  • 以 Y% 誤判率擷取 X% 詐騙註冊。

  • 接受多達 5% 的自動核准註冊是詐騙的。

事件資料集結構

Amazon Fraud Detector 要求您使用 UTF-8 格式的逗號分隔值 (CSV) 以文字檔案提供事件資料集。CSV 資料集檔案的第一行必須包含檔案標頭。文件頭由事件元數據和事件變量組成,這些變量描述了與事件相關聯的每個數據元素。標頭後跟事件資料。每一行都包含來自單一事件的資料元素。

  • 事件中繼資料-提供有關事件的資訊。例如,EVENT_TIMESTAMP 是一個事件中繼資料,用於指定事件發生的時間。根據您的業務使用案例和用於建立和訓練詐騙偵測模型的模型類型,Amazon Fraud Detector 會要求您提供特定的事件中繼資料。在 CSV 檔案標頭中指定事件中繼資料時,請使用 Amazon Fraud Detector 指定的相同事件中繼資料名稱,並僅使用大寫字母。

  • 事件變數-代表您要用來建立和訓練詐騙偵測模型的事件特定資料元素。根據您的業務使用案例以及用於建立和訓練詐騙偵測模型的模型類型,Amazon Fraud Detector 可能會要求或建議您提供特定的事件變數。您也可以選擇性地提供事件中要包含在訓練模型中的其他事件變數。線上註冊事件的一些事件變數範例可以是電子郵件地址、IP 位址和電話號碼。在 CSV 檔案標頭中指定事件變數名稱時,請使用您選擇的任何變數名稱,並僅使用小寫字母。

  • 事件數據-表示從實際事件收集的數據。在 CSV 檔案中,檔案標頭後面的每一列都包含單一事件中的資料元素。例如,在線上註冊事件資料檔案中,每一列都包含來自單一註冊的資料。列中的每個資料元素都必須符合對應的事件中繼資料或事件變數。

下列範例是 CSV 檔案範例,其中包含來自帳戶註冊事件的資料。標頭列包含大寫的事件中繼資料,以及小寫後跟事件資料的事件變數。資料集中的每一列都包含與單一帳戶註冊相關聯的資料元素,以及與標頭對應的每個資料元素。

CSV file showing event metadata and variables with sample data for account registration events.

使用資料模型總管取得事件資料集需求

您選擇建立模型的模型類型會定義資料集的需求。Amazon Fraud Detector 會使用您提供的資料集來建立和訓練詐騙偵測模型。Amazon Fraud Detector 開始建立模型之前,它會檢查資料集是否符合大小、格式和其他需求。如果資料集不符合需求,則模型建立和訓練會失敗。您可以使用資料模型總管來識別要用於商業使用案例的模型類型,並深入瞭解已識別之模型類型的資料集需求。

資料模型總管

資料模型總管是 Amazon Fraud Detector 主控台中的工具,可將您的商業使用案例與 Amazon Fraud Detector 支援的模型類型保持一致。資料模型總管也提供 Amazon Fraud Detector 建立詐騙偵測模型所需資料元素的深入解析。在開始準備事件資料集之前,請使用資料模型總管找出 Amazon Fraud Detector 為您的業務用途建議的模型類型,並查看建立資料集所需的強制性、建議和選用資料元素清單。

要使用數據模型資源管理器,
  1. 開啟AWS管理主控台並登入您的帳戶。導航 Amazon Fraud Detector。

  2. 在左側導覽窗格中選擇資料模型總管

  3. 在 [資料模型總管] 頁面的 [商業使用案例] 下,選取您要評估詐騙風險的商業使用案例。

  4. Amazon Fraud Detector 會顯示與您的商業使用案例相符的建議模型類型。模型類型定義 Amazon Fraud Detector 將用來訓練您的詐騙偵測模型的演算法、擴充和轉換。

    請記下建議的模型類型。稍後建立模型時,您將需要此功能。

    注意

    如果您找不到您的業務使用案例,請使用說明中的「聯繫我們」鏈接向我們提供您的業務用例的詳細信息。我們會針對您的企業使用案例建立詐騙偵測模型時,建議使用的模型類型。

  5. 資料模型深入解析」窗格可提供針對企業使用案例建立和訓練詐騙偵測模型所需的強制性、建議和選用資料元素的深入解析。使用深入解析窗格中的資訊來收集事件資料並建立資料集。

收集事件資料

收集事件資料是建立模型的重要步驟。這是因為模型在預測詐騙時的效能取決於資料集的品質。當您開始收集事件資料時,請記住資料模型總管為您建立資料集所提供的資料元素清單。您需要收集所有強制性 (事件中繼資料) 資料,並根據建立模型的目標決定要包含哪些建議和選用的資料元素 (事件變數)。決定要包含的每個事件變數的格式以及資料集的總大小也很重要。

事件資料集品質

若要為您的模型收集高品質資料集,我們建議下列作法:

  • 收集成熟的數據- 使用最新的數據有助於識別最新的欺詐模式。但是,為了檢測欺詐用例,請允許數據成熟。到期期限取決於您的業務,並且可能需要從兩週到三個月的任何地方。例如,如果您的事件包括信用卡交易,則資料的到期日可能會由信用卡的借項沖回期間或調查員決定所花費的時間來決定。

    確保用於訓練模型的數據集有足夠的時間根據您的業務成熟。

  • 確保資料分佈不會顯著漂移- Amazon Fraud Detector 模型訓練程序會根據 EVENT_TIMESTAMP 為您的資料集進行樣本和分割。例如,如果您的資料集包含從過去 6 個月擷取的詐騙事件,但只包含最後一個月的合法事件,則資料分佈會被視為漂移且不穩定。不穩定的資料集可能會導致模型效能評估出現偏差。如果您發現資料分佈顯著漂移,請考慮收集與目前資料分佈類似的資料來平衡資料集。

  • 確保數據集代表實現/測試模型的用例- 否則,估計的性能可能會有偏差。假設您正在使用模型來自動拒絕所有門戶申請人,但是您的模型是使用具有先前批准的歷史數據/標籤的數據集進行培訓。然後,您的模型評估可能不正確,因為評估是基於沒有拒絕申請人表示的資料集。

事件資料格式

Amazon Fraud Detector 會將您的大部分資料轉換為所需的格式,做為模型訓練程序的一部分。不過,您可以輕鬆使用一些標準格式來提供資料,以協助避免 Amazon Fraud Detector 驗證資料集時發生問題。下表提供提供建議事件中繼資料之格式的指引。

注意

建立 CSV 檔案時,請務必以大寫字母輸入如下所列的事件中繼資料名稱。

元數據名稱 格式 必要

事件識別碼

如有提供,它必須符合下列需求:

  • 這對於該事件來說是獨一無二的。

  • 它代表了對您的業務有意義的信息。

  • 它遵循正則表達式模式(例如,^[0-9a-z_-]+$.)

  • 除了上述要求之外,我們建議您不要在 EVENT_ID 附加時間戳記。這樣做可能會導致更新事件時出現問題。這是因為如果你這樣做,你必須提供完全相同的 EVENT_ID。

取決於型號類型

事件時間戳

  • 必須採用下列其中一種格式指定:

    • %YY-%mm-%Dt%HH: %mm: %ssz (ISO 8601 標準在世界標準時間內只有在世界標準時間,沒有毫秒)

      範例:2019-11-30T13:凌晨 1 時

    • %yyyy/%mm/%dd %hh:% 公釐:% ss (上午/下午)

      例子:下午一時三十一分或十一月三十一日

    • %mm/%dd/%yyyy %hh:% 毫米:%

      例子:十一月三十日下午一時零一分,十一月三十日

    • % 毫米 /%dd/%yy %hh:% 毫米:%

      例子:十一月三十一日下午一時零一分

  • Amazon Fraud Detector 在剖析事件時間戳記的日期/時間戳記格式時,會進行下列假設:

    • 如果您使用的是 ISO 8601 標準,它必須完全符合上述規格

    • 如果您使用的是其他格式之一,還有額外的靈活性:

      • 對於月份和日期,您可以提供單一或兩位數字。例如,2019 年 1 月 12 日是一個有效的日期。

      • 如果你沒有它們,你不需要包含 hh:mm:ss(也就是說,你可以簡單地提供一個日期)。您也可以提供小時和分鐘的子集 (例如 hh: mm)。不支持只提供小時。毫秒也不受支援。

      • 如果您提供 AM/PM 標籤,則假設為 12 小時制。如果沒有 AM/PM 資訊,則假設為 24 小時制。

      • 您可以使用「/」或「-」作為日期元素的分隔符。假定為時間戳元素「:」。

實體識別碼

  • 它必須遵循正則表達式模式:^[0-9A-Za-z_.@+-]+$

  • 如果實體 ID 在評估時無法使用,請將實體 ID 指定為未知

取決於型號類型

實體類型

您可以使用任何字符串

取決於型號類型

事件標籤

您可以使用任何標籤,例如「欺詐」,「合法」,「1」或「0」。

如果包含標籤 _ 時間戳記,則需要

標籤時間戳記

它必須遵循時間戳記格式。

如果包含事件標籤,則需要

如需事件變數的相關資訊,請參閱變數

重要

如果您要建立帳戶接管見解 (ATI) 模型,請參閱準備資料以取得準備和選取資料的詳細資訊。

空值或缺少值

事件時間戳記和事件 _ 標籤變數不得包含任何空值或遺漏值。您可以為其他變數設定 null 或缺少值。但是,建議您對這些變數只使用少量空值。如果 Amazon Fraud Detector 判斷事件變數有太多空值或遺漏值,它會自動省略模型中的變數。

最小变量

建立模型時,除了必要的事件中繼資料之外,資料集還必須包含至少兩個事件變數。這兩個事件變數必須通過驗證檢查。

事件資料集大小

必要

您的資料集必須符合下列基本需求,才能成功進行模型訓練。

  • 來自至少 100 個事件的數據。

  • 資料集必須包含至少 50 個被歸類為詐騙的事件 (列)。

建議

我們建議您的資料集包含下列項目,以便成功進行模型訓練和良好的模型效能。

  • 包括至少三週的歷史數據,但最多六個月的數據。

  • 包含至少 10K 總事件資料。

  • 包括至少 400 個分類為詐騙的事件 (列),以及 400 個分類為合法的事件 (列)。

  • 如果您的模型類型需要 ENTITY_ID,請包括 100 個以上的唯一實體。

資料集驗證

在 Amazon Fraud Detector 開始建立模型之前,它會檢查用於訓練模型的資料集中包含的變數是否符合大小、格式和其他需求。如果資料集未通過驗證,則不會建立模型。在建立模型之前,您必須先修正未通過驗證的變數。Amazon Fraud Detector 為您提供資料剖析工具,可在開始訓練模型之前,協助您識別並修正資料集的問題

資料剖析工具

Amazon Fraud Detector 提供開放原始碼工具,用於分析和準備資料以進行模型訓練。此自動化資料分析工具可協助您避免常見的資料準備錯誤,並識別潛在問題,例如錯誤對應的變數類型,這些問題會對模型效能造成負面影響。效能分析工具會產生直覺且全面的資料集報告,包括變數統計資料、標籤分佈、分類和數值分析,以及變數和標籤關聯性。它提供有關變數類型的指導,以及將資料集轉換為 Amazon Fraud Detector 所需格式的選項。

使用資料分析工具

自動化資料分析工具是使用AWS CloudFormation堆疊建置的,只要按幾下滑鼠即可輕鬆啟動。所有代碼都可以在 Github 上找到。如需如何使用資料剖析工具的相關資訊,請遵循我們部落格中的指示使用 Amazon Fraud Detector 的自動資料剖析工具更快訓練模型

常見事件資料集錯誤

以下是 Amazon Fraud Detector 在驗證事件資料集時遇到的一些常見問題。執行資料分析工具之後,請在建立模型之前,使用此清單檢查資料集是否有錯誤。

  • CSV 檔案不是 UTF-8 格式的檔案。

  • 資料集中的事件數目小於 100。

  • 識別為欺詐或合法事件的數量少於 50。

  • 與詐騙事件相關聯的唯一實體數量少於 100 個。

  • EVENT_TIMESTAMP 中超過 0.1% 的值包含空值或受支持的日期/時間戳記格式以外的值。

  • EVENT_LABEL 中超過 1% 的值包含事件類型中定義的空值或值以外的值。

  • 小於兩個變數可用於模型訓練。

資料集儲存

收集資料集後,您可以使用 Amazon Fraud Detector 或 Amazon Simple Storage Service (Amazon S3) 將資料集存放在外部。建議您根據用於產生詐騙預測的模型,選擇儲存資料集的位置。有關模型類型的詳細資訊,請參閱選擇模型類型。如需儲存資料集的詳細資訊,請參閱事件資料儲存體