トランザクション不正インサイト - Amazon Fraud Detector

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トランザクション不正インサイト

トランザクション不正インサイトモデルタイプは、オンライン、または card-not-presentトランザクション不正を検出するように設計されています。トランザクション不正インサイトは、教師付き機械学習モデルです。つまり、不正および正当なトランザクションのサンプル履歴を使用してモデルをトレーニングします。

トランザクション不正インサイトモデルは、データのエンリッチメント、変換、不正分類に機械学習アルゴリズムのアンサンブルを使用します。特徴エンジニアリングエンジンを活用して、エンティティレベルおよびイベントレベルの集計を作成します。モデルトレーニングプロセスの一環として、トランザクション不正インサイトは、IP アドレスや BIN 番号などの生データ要素を、IP アドレスのジオロケーションやクレジットカードの発行銀行などのサードパーティーデータで強化します。サードパーティーのデータに加えて、トランザクション不正インサイトは、Amazon および AWS で見られた不正パターンを考慮に入れた深層学習アルゴリズムを使用しています。このような不正パターンは、勾配ツリーブースティングアルゴリズムを使用してモデルへの入力特徴になります。

パフォーマンスを向上させるために、トランザクション不正インサイトは、ベイズ最適化プロセスを介して勾配ツリーブースティングアルゴリズムのハイパーパラメータを最適化し、さまざまなモデルパラメータ (ツリーの数、ツリーの深さ、枝葉あたりのサンプル数など) で数十の異なるモデルを順次トレーニングします。また、マイノリティ不正集団を重み付けして、非常に低い不正率に対処するなど、さまざまな最適化戦略もあります。

モデルトレーニングプロセスの一環として、トランザクション不正モデルの特徴エンジニアリングエンジンは、トレーニングデータセット内の各一意のエンティティの値を計算し、不正予測を改善します。例えば、トレーニングプロセス中に、Amazon Fraud Detector は、エンティティが最後に購入を行った時間を計算して保存し、GetEventPrediction または SendEvent API を呼び出すたびにこの値を動的に更新します。不正予測では、イベント変数が他のエンティティおよびイベントメタデータと組み合わされ、トランザクションが不正であるかどうかを予測します。

データソースの選択

トランザクション不正インサイトモデルは、Amazon Fraud Detector (INGESTED_EVENTS) を使用して内部に格納されたデータセットでのみトレーニングされます。これにより、Amazon Fraud Detector は、評価しているエンティティに関する計算値を継続的に更新できます。使用可能なデータソースの詳細については、「イベントデータストレージ」を参照してください。

データの準備

トランザクション不正インサイトモデルをトレーニングする前に、イベントデータセットの準備で説明したように、データファイルにすべてのヘッダーが含まれていることを確認してください。トランザクション不正インサイトモデルは、受け取った新しいエンティティと、データセット内の不正エンティティと正当なエンティティの例を比較するため、エンティティごとに多くの例を提供することが有用です。

Amazon Fraud Detector は、保存されたイベントデータセットをトレーニング用の正しい形式に自動的に変換します。モデルのトレーニングが完了したら、パフォーマンスメトリクスを確認して、トレーニングデータセットにエンティティを追加する必要があるかどうかを判断できます。

データの選択

デフォルトでは、トランザクション不正インサイトは、選択したイベントタイプについて、保存されたデータセット全体をトレーニングします。オプションで、時間範囲を設定して、モデルのトレーニングに使用されるイベントを減らすことができます。時間範囲を設定するときは、モデルのトレーニングに使用されるレコードが成熟するのに十分な時間をかけるようにします。つまり、正当なレコードと不正なレコードを正しく特定するのに十分な時間が経過していることです。例えば、チャージバック不正の場合、不正イベントを正しく特定するのに 60 日以上かかることがよくあります。最適なモデルのパフォーマンスを得るには、トレーニングデータセット内のすべてのレコードが成熟していることを確認します。

理想的な不正率を表す時間範囲を選択する必要はありません。Amazon Fraud Detector は、不正率、時間範囲、エンティティ数のバランスをとるためにデータを自動的にサンプリングします。

モデルのトレーニングに十分なイベントがない時間範囲を選択すると、Amazon Fraud Detector はモデルトレーニング中に検証エラーを返します。保存されたデータセットの場合、EVENT_LABEL フィールドは任意ですが、トレーニングデータセットに含めるには、イベントにラベルを付ける必要があります。モデルトレーニングを設定するときに、ラベルなしイベントを無視するか、ラベルなしイベントは正当なラベルであると仮定するか、ラベルなしイベントは不正なラベルであると仮定するかを選択できます。

イベント変数

モデルのトレーニングに使用されるイベントタイプには、必要なイベントメタデータの他に、データ検証に合格した変数が少なくとも 2 つ含まれている必要があり、また最大 100 個の変数を含めることができます。一般に、指定する変数が多いほど、モデルは不正イベントと正当なイベントを区別しやすくなります。トランザクション不正インサイトモデルは、カスタム変数を含む多数の変数をサポートできますが、IP アドレス、E メールアドレス、支払い手段の種類、注文価格、クレジットカードの銀行識別番号を含めることをお勧めします。

データの検証

トレーニングプロセスの一環として、トランザクション不正インサイトは、モデルトレーニングに影響を与える可能性のあるデータ品質の問題についてトレーニングデータセットを検証します。データを検証した後、Amazon Fraud Detector は最適なモデルを構築するために適切なアクションを実行します。これには、潜在的なデータ品質の問題に対する警告の発行、データ品質の問題がある変数の自動削除、エラーの発行、モデルトレーニングプロセスの停止などがあります。詳細については、「データセットの検証」を参照してください。

Amazon Fraud Detector は警告を発行しますが、一意のエンティティの数が 1,500 未満の場合は、トレーニングデータの品質に影響を与える可能性があるため、モデルのトレーニングを続行します。警告が表示された場合は、パフォーマンスメトリクスを確認してください。