Informations sur la fraude en ligne - Amazon Fraud Detector

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Informations sur la fraude en ligne

Online Fraud Insights est un modèle d'apprentissage automatique supervisé, ce qui signifie qu'il utilise des exemples historiques de transactions frauduleuses et légitimes pour entraîner le modèle. Le modèle Online Fraud Insights permet de détecter les fraudes sur la base de peu de données historiques. Les entrées du modèle sont flexibles, vous pouvez donc l'adapter pour détecter divers risques de fraude, notamment les faux avis, les abus de promotion et les fraudes liées au paiement des clients.

Le modèle Online Fraud Insights utilise un ensemble d'algorithmes d'apprentissage automatique pour l'enrichissement, la transformation et la classification des fraudes des données. Dans le cadre du processus de formation modèle, Online Fraud Insights enrichit les éléments de données brutes tels que l'adresse IP et le numéro BIN avec des données tierces telles que la géolocalisation de l'adresse IP ou la banque émettrice d'une carte de crédit. Outre les données de tiers, Online Fraud Insights utilise des algorithmes d'apprentissage en profondeur qui prennent en compte les modèles de fraude observés sur Amazon et AWS. Ces modèles de fraude deviennent des éléments d'entrée de votre modèle à l'aide d'un algorithme de renforcement de l'arborescence des dégradés.

Pour améliorer les performances, Online Fraud Insights optimise les hyperparamètres de l'algorithme de renforcement de l'arbre à gradient via un processus d'optimisation bayésien. Il entraîne de manière séquentielle des dizaines de modèles différents avec différents paramètres de modèle (tels que le nombre d'arbres, la profondeur des arbres et le nombre d'échantillons par feuille). Il utilise également différentes stratégies d'optimisation, telles que la surpondération de la population minoritaire de fraudeurs afin de réduire les taux de fraude.

Sélection de la source de données

Lorsque vous entraînez un modèle Online Fraud Insights, vous pouvez choisir d'entraîner le modèle sur des données d'événements stockées en externe (en dehors d'Amazon Fraud Detector) ou stockées dans Amazon Fraud Detector. Le stockage externe actuellement pris en charge par Amazon Fraud Detector est Amazon Simple Storage Service (Amazon S3). Si vous utilisez un stockage externe, votre ensemble de données d'événements doit être chargé au format CSV (valeurs séparées par des virgules) dans un compartiment Amazon S3. Dans la configuration d'apprentissage du modèle, ces options de stockage de données sont appelées EXTERNAL_EVENTS (pour le stockage externe) et INGESTED_EVENTS (pour le stockage interne). Pour plus d'informations sur les sources de données disponibles et sur la manière d'y stocker des données, consultezStockage des données d'événements.

Préparation des données

Quel que soit l'endroit où vous choisissez de stocker les données de vos événements (Amazon S3 ou Amazon Fraud Detector), les exigences relatives au type de modèle Online Fraud Insights sont les mêmes.

Votre ensemble de données doit contenir l'en-tête de colonne EVENT_LABEL. Cette variable classe un événement comme frauduleux ou légitime. Lorsque vous utilisez un fichier CSV (stockage externe), vous devez inclure EVENT_LABEL pour chaque événement du fichier. Pour le stockage interne, le champ EVENT_LABEL est facultatif, mais tous les événements doivent être étiquetés pour être inclus dans un ensemble de données d'entraînement. Lorsque vous configurez votre modèle d'entraînement, vous pouvez choisir d'ignorer les événements non étiquetés, d'utiliser une étiquette légitime pour les événements non étiquetés ou d'utiliser une étiquette frauduleuse pour tous les événements non étiquetés.

Sélection de données

Consultez la section Collecter des données sur les événements pour obtenir des informations sur la sélection des données pour la formation de votre modèle Online Fraud Insights.

Le processus de formation Online Fraud Insights échantillonne et partitionne les données historiques en fonction d'EVENT_TIMESTAMP. Il n'est pas nécessaire d'échantillonner les données manuellement, ce qui peut avoir un impact négatif sur les résultats de votre modèle.

Variables d'événement

Le modèle Online Fraud Insights nécessite au moins deux variables, outre les métadonnées d'événement requises, qui ont passé avec succès la validation des données pour l'entraînement du modèle et autorisent jusqu'à 100 variables par modèle. En général, plus vous fournissez de variables, mieux le modèle peut différencier la fraude des événements légitimes. Bien que le modèle Online Fraud Insights puisse prendre en charge des dizaines de variables, y compris des variables personnalisées, nous recommandons d'inclure l'adresse IP et l'adresse e-mail, car ces variables sont généralement les plus efficaces pour identifier l'entité évaluée.

Validation des données

Dans le cadre du processus de formation, Online Fraud Insights validera l'ensemble de données pour détecter les problèmes de qualité des données susceptibles d'avoir une incidence sur la formation des modèles. Après avoir validé les données, Amazon Fraud Detector prendra les mesures appropriées pour créer le meilleur modèle possible. Cela inclut l'émission d'avertissements en cas de problèmes potentiels de qualité des données, la suppression automatique des variables présentant des problèmes de qualité des données ou l'émission d'une erreur et l'arrêt du processus d'apprentissage du modèle. Pour plus d'informations, consultez la section Validation du jeu de données.