Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d'un fichier CSV
Amazon Fraud Detector nécessite que la première ligne de votre fichier CSV contienne des en-têtes de colonne. Les en-têtes de colonne de votre fichier CSV doivent correspondre aux variables définies dans le type d'événement. Pour un exemple de jeu de données, voirObtenir et télécharger un exemple de jeu de données
Le modèle Online Fraud Insights nécessite un ensemble de données d'entraînement comportant au moins 2 variables et jusqu'à 100 variables. Outre les variables d'événement, le jeu de données d'entraînement doit contenir les en-têtes suivants :
-
EVENT_TIMESTAMP - Définit quand l'événement est survenu
-
EVENT_LABEL : classe l'événement comme frauduleux ou légitime. Les valeurs de la colonne doivent correspondre aux valeurs définies dans le type d'événement.
Les exemples de données CSV suivants représentent l'historique des événements d'enregistrement d'un commerçant en ligne :
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
Note
Le fichier de données CSV peut contenir des guillemets et des virgules dans le cadre de vos données.
Une version simplifiée du type d'événement correspondant est représentée ci-dessous. Les variables d'événement correspondent aux en-têtes du fichier CSV et les valeurs correspondantesEVENT_LABEL
aux valeurs de la liste des étiquettes.
( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )
Formats d'horodatage des événements
Assurez-vous que l'horodatage de votre événement est au format requis. Dans le cadre du processus de création du modèle, le type de modèle Online Fraud Insights organise vos données en fonction de l'horodatage de l'événement et divise vos données à des fins de formation et de test. Pour obtenir une estimation juste des performances, le modèle s'entraîne d'abord sur l'ensemble de données d'apprentissage, puis teste ce modèle sur l'ensemble de données de test.
Amazon Fraud Detector prend en charge les formats de date et d'horodatage suivants pour les valeurs saisiesEVENT_TIMESTAMP
lors de la formation du modèle :
%YYYY-%mm-%DDT%Hh : %mm : %SSz (norme ISO 8601 en UTC uniquement, sans millisecondes)
Exemple : 2019-11-30T 13:01:01 Z
-
%yyyy/%mm/%dd %hh : %mm : %ss (AM/PM)
Exemples : 2019/11/30 13:01:01, ou 2019/11/30 13:01:01
%mm/%dd/%yyyy %hh : %mm : %ss
Exemples : 30/11/2019 13:01:01, 30/11/2019 13:01:01
%mm/%dd/%yy %hh : %mm : %ss
Exemples : 30/11/19 13:01:01, 30/11/19 13:01:01
Amazon Fraud Detector part des hypothèses suivantes lors de l'analyse des formats de date/d'horodatage pour les horodatages des événements :
Si vous utilisez la norme ISO 8601, elle doit correspondre exactement à la spécification précédente
Si vous utilisez l'un des autres formats, vous bénéficiez d'une flexibilité supplémentaire :
Pour les mois et les jours, vous pouvez fournir un ou deux chiffres. Par exemple, le 1/12/2019 est une date valide.
Vous n'avez pas besoin d'inclure hh:mm:ss si vous ne les avez pas (vous pouvez simplement indiquer une date). Vous pouvez également fournir un sous-ensemble contenant uniquement les heures et les minutes (par exemple, hh:mm). Le simple fait de fournir une heure n'est pas pris en charge. Les millisecondes ne sont pas non plus prises en charge.
Si vous fournissez des étiquettes AM/PM, une horloge de 12 heures est supposée. S'il n'y a aucune information AM/PM, une horloge de 24 heures est supposée.
Vous pouvez utiliser «/» ou « - » comme délimiteurs pour les éléments de date. « : » est supposé pour les éléments d'horodatage.
Échantillonner votre ensemble de données au fil du temps
Nous vous recommandons de fournir des exemples de fraude et des échantillons légitimes datant de la même période. Par exemple, si vous signalez des événements de fraude survenus au cours des 6 derniers mois, vous devez également fournir des événements légitimes qui s'étendent uniformément sur la même période. Si votre jeu de données contient une distribution très inégale des fraudes et des événements légitimes, le message d'erreur suivant peut s'afficher : « La distribution de la fraude dans le temps fluctue de manière inacceptable. Impossible de diviser correctement l'ensemble de données. » En général, la solution la plus simple à cette erreur consiste à s'assurer que les événements frauduleux et les événements légitimes sont échantillonnés de manière uniforme au cours de la même période. Il se peut également que vous deviez supprimer des données si vous avez été confronté à une forte recrudescence de fraudes dans un court laps de temps.
Si vous ne pouvez pas générer suffisamment de données pour créer un jeu de données réparti de manière uniforme, une approche consiste à randomiser l'EVENT_TIMESTAMP de vos événements de manière à ce qu'ils soient répartis de manière uniforme. Toutefois, cela se traduit souvent par des indicateurs de performance irréalistes, car Amazon Fraud Detector utilise EVENT_TIMESTAMP pour évaluer les modèles sur le sous-ensemble d'événements approprié de votre ensemble de données.
Valeurs nulles et manquantes
Amazon Fraud Detector gère les valeurs nulles et manquantes. Toutefois, le pourcentage de valeurs nulles pour les variables doit être limité. Les colonnes EVENT_TIMESTAMP et EVENT_LABEL ne doivent contenir aucune valeur manquante.
Validation de fichiers
Amazon Fraud Detector ne parviendra pas à entraîner un modèle si l'une des conditions suivantes est remplie :
-
Si le fichier CSV ne peut pas être analysé
-
Si le type de données d'une colonne est incorrect