翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
CSV ファイルの作成
Amazon Fraud Detector では、CSV ファイルの最初の行に列ヘッダーが含まれている必要があります。CSV ファイルの列ヘッダーは、イベントタイプで定義されている変数に対応している必要があります。データセットの例については、「サンプルデータセットの取得とアップロード」を参照してください。
オンライン不正インサイトモデルには、少なくとも 2 つの変数と最大 100 個の変数を持つトレーニングデータセットが必要です。イベント変数に加えて、トレーニングデータセットには、次のヘッダーが含まれている必要があります。
-
EVENT_TIMESTAMP — いつイベントが発生したかを定義します
-
EVENT_LABEL - イベントを不正または正当として分類します 列の値は、イベントタイプで定義されている値に対応している必要があります。
次のサンプル CSV データは、オンラインマーチャントからの履歴登録イベントを表します。
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
注記
CSV データファイルには、データの一部として二重引用符とカンマを含めることができます。
対応するイベントタイプの簡略版を以下に示します。イベント変数は CSV ファイルのヘッダーに対応し、EVENT_LABEL
の値はラベルリストの値に対応します。
( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )
イベントのタイムスタンプ形式
イベントのタイムスタンプが必須の形式であることを確認します。モデル構築プロセスの一環として、Online Fraud Insights モデルタイプは、イベントのタイムスタンプに基づいてデータを順序付けし、トレーニングとテストの目的でデータを分割します。パフォーマンスを公平に見積もるために、モデルはまずトレーニングデータセットでトレーニングを行い、次にテストデータセットでこのモデルをテストします。
Amazon Fraud Detector は、モデルトレーニング中、EVENT_TIMESTAMP
の値に対して次の日付/タイムスタンプ形式をサポートしています。
%yyyy-%mm-%ddT%hh:%mm:%ssZ (ミリ秒なし、UTC のみの ISO 8601標準)
例: 2019-11-30T13:01:01Z
-
%yyyy/%mm/%dd %hh:%mm:%ss (AM/PM)
例: 2019/11/30 1:01:01 PM、または 2019/11/30 13:01:01
%mm/%dd/%yyyy %hh:%mm:%ss
例: 11/30/2019 1:01:01 PM、または 11/30/2019 13:01:01
%mm/%dd/%yy %hh:%mm:%ss
例: 11/30/19 1:01:01 PM、または 11/30/19 13:01:01
Amazon Fraud Detector は、イベントタイムスタンプの日付/タイムスタンプ形式を解析するときに、次の仮定を行います。
ISO 8601 標準を使用する場合は、前述の仕様と完全に一致する必要があります。
他の形式のいずれかを使用している場合は、さらに柔軟性があります。
月および日には、1 桁または 2 桁の数字を指定できます。例えば、2019 年 1 月 12 日は有効な日付です。
hh:mm:ss がない (つまり、単に日付を指定できる) 場合は、含める必要はありません。時と分だけのサブセット (例えば、hh:mm) を指定することもできます。時のみの指定はサポートされていません。ミリ秒もサポートされていません。
AM/PM ラベルを指定した場合は、12 時間時計と見なされます。AM/PM 情報がない場合は、24 時間時計と見なされます。
日付要素の区切り文字として「/」または「-」を使用できます。タイムスタンプ要素には「:」が想定されます。
経時的なデータセットのサンプリング
不正のサンプルと正当なサンプルを同じ時間範囲で提供することをお勧めします。例えば、過去 6 か月間の不正イベントを提供する場合は、同じ期間に均等にまたがる正当なイベントも提供する必要があります。データセットに不正および正当なイベントの分布が非常に不均一に含まれている場合は、次のエラーが表示される場合があります。「時間の経過に伴う不正分布は容認できないほど変動しています。データセットを正しく分割できません」 通常、このエラーに対する最も簡単な修正は、不正イベントと正当なイベントが同じ期間にわたって均等にサンプリングされるようにすることです。また、短期間で不正の急増が発生した場合は、データの削除が必要になる場合があります。
均等に分散されたデータセットを作成するのに十分なデータを生成できない場合は、イベントの EVENT_TIMESTAMP をランダム化して、均等に分散されるようにする方法があります。ただし、Amazon Fraud Detector は EVENT_TIMESTAMP を使用して、データセット内の適切なイベントのサブセットでモデルを評価するため、多くの場合、パフォーマンスメトリクスが非現実的になります。
NULL 値および欠損値
Amazon Fraud Detector は NULL 値および欠損値を処理します。ただし、変数の NULL の割合は制限する必要があります。EVENT_TIMESTAMP および EVENT_LABEL 列に欠損値を含めることはできません。
ファイルの検証
Amazon Fraud Detector は、次のいずれかの条件が発生すると、モデルをトレーニングできません。
-
CSV を解析できない場合
-
列のデータ型が間違っている場合