オンライン不正インサイト - Amazon Fraud Detector

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

オンライン不正インサイト

オンライン不正インサイトは、教師付き機械学習モデルです。つまり、不正および正当なトランザクションのサンプル履歴を使用してモデルをトレーニングします。オンライン不正インサイトモデルは、わずかな履歴データに基づいて不正を検出できます。モデルの入力は柔軟性があるため、フェイクレビュー、プロモーションの不正使用、ゲストのチェックアウト不正など、さまざまな不正リスクを検出するように適応できます。

オンライン不正インサイトモデルは、データのエンリッチメント、変換、不正分類に機械学習アルゴリズムのアンサンブルを使用します。モデルトレーニングプロセスの一環として、オンライン不正インサイトは、IP アドレスや銀行識別番号などの raw データ要素を、IP アドレスのジオロケーションやクレジットカードの発行銀行などのサードパーティーデータで強化します。オンライン不正インサイトでは、サードパーティーデータに加えて、Amazon と AWSで見られた不正パターンを考慮した深層学習アルゴリズムを使用します。これらの不正パターンは、勾配ツリーブースティングアルゴリズムを使用して、モデルへの入力特徴になります。

パフォーマンスを向上させるために、オンライン不正インサイトは、ベイズ最適化プロセスを介して、勾配ツリーブースティングアルゴリズムのハイパーパラメータを最適化します。さまざまなモデルパラメータ (ツリーの数、ツリーの深さ、枝葉あたりのサンプル数など) を使用して、数十種類のモデルを順番にトレーニングします。また、マイノリティ不正集団の重み付けなど、さまざまな最適化戦略を使用して、非常に低い不正率を処理します。

データソースの選択

オンライン不正インサイトモデルをトレーニングする場合、外部 (Amazon Fraud Detector の外) に格納されているイベントデータまたは Amazon Fraud Detector 内に格納されているイベントデータに基づいてモデルをトレーニングできます。Amazon Fraud Detector が現在サポートしている外部ストレージは、Amazon Simple Storage Service (Amazon S3) です。外部ストレージを使用している場合は、イベントデータセットをカンマ区切り値 (CSV) 形式として Amazon S3 バケットにアップロードする必要があります。これらのデータストレージオプションは、モデルトレーニング設定内で EXTERNAL_EVENTS (外部ストレージの場合) および INGESTED_EVENTS (内部ストレージの場合) と呼ばれます。使用可能なデータソースとそのデータソースにデータを保存する方法の詳細については、「」を参照してくださいイベントデータストレージ

データの準備

イベントデータの保存場所 (Amazon S3 または Amazon Fraud Detector) に関係なく、オンライン不正インサイトモデルタイプの要件は同じです。

データセットには、列ヘッダー EVENT_LABEL が含まれている必要があります。この変数は、イベントを不正または正当として分類します。CSV ファイル (外部ストレージ) を使用する場合は、ファイル内のイベントごとに EVENT_LABEL を含める必要があります。内部ストレージの場合、EVENT_LABEL フィールドは任意ですが、トレーニングデータセットに含めるには、すべてのイベントにラベルを付ける必要があります。モデルトレーニングを設定するときに、ラベルなしイベントを無視するか、ラベルなしイベントは正当なラベルであると仮定するか、すべてのラベルなしイベントは不正なラベルであると仮定するかを選択できます。

データの選択

オンライン不正インサイトモデルをトレーニングするためのデータの選択については、イベントデータの収集を参照してください。

オンライン不正インサイトトレーニングプロセスは、EVENT_TIMESTAMP に基づいて履歴データをサンプリングして分割します。データを手動でサンプリングする必要はありません。そうすると、モデルの結果に悪影響を与える可能性があります。

イベント変数

オンライン不正インサイトモデルには、必要なイベントメタデータとは別に、モデルトレーニングのデータ検証に合格した少なくとも 2 つの変数が必要で、モデルごとに最大 100 個の変数を持つことができます。一般に、指定する変数が多いほど、モデルは不正イベントと正当なイベントを区別しやすくなります。オンライン不正インサイトモデルは、カスタム変数を含む多数の変数をサポートできますが、IP アドレスと E メールアドレスを含めることをお勧めします。これらの変数は通常、評価対象のエンティティを識別するのに最も効果的だからです。

データの検証

トレーニングプロセスの一環として、オンライン不正インサイトは、モデルトレーニングに影響を与える可能性のあるデータ品質の問題についてデータセットを検証します。データを検証した後、Amazon Fraud Detector は最適なモデルを構築するために適切なアクションを実行します。これには、潜在的なデータ品質の問題に対する警告の発行、データ品質の問題がある変数の自動削除、エラーの発行、モデルトレーニングプロセスの停止などがあります。詳細については、「データセットの検証」を参照してください。