Crea file CSV - Amazon Fraud Detector

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Crea file CSV

Amazon Fraud Detector richiede che la prima riga del file CSV contenga le intestazioni delle colonne. Le intestazioni delle colonne nel file CSV devono corrispondere alle variabili definite nel tipo di evento. Per un set di dati di esempio, vedereOttieni e carica un set di dati di esempio

Il modello Online Fraud Insights richiede un set di dati di formazione con almeno 2 variabili e fino a 100 variabili. Oltre alle variabili di evento, il set di dati di formazione deve contenere le seguenti intestazioni:

  • EVENT_TIMESTAMP - Definisce quando si è verificato l'evento

  • EVENT_LABEL - Classificare l'evento come fraudolento o legittimo. I valori nella colonna devono corrispondere ai valori definiti nel tipo di evento.

I seguenti dati CSV di esempio rappresentano gli eventi di registrazione storici di un commerciante online:

EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
Nota

Il file di dati CSV può contenere virgolette e virgole come parte dei dati.

Di seguito è rappresentata una versione semplificata del tipo di evento corrispondente. Le variabili di evento corrispondono alle intestazioni del file CSV e i valori inEVENT_LABEL corrispondono ai valori nell'elenco delle etichette.

( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )

Formati Timestamp degli eventi

Assicurati che il timestamp dell'evento sia nel formato richiesto. Come parte del processo di creazione del modello, il tipo di modello Online Fraud Insights ordina i dati in base al timestamp dell'evento e li divide per scopi di formazione e test. Per ottenere una stima equa delle prestazioni, il modello si addestra prima sul set di dati di addestramento e quindi testa questo modello sul set di dati di test.

Amazon Fraud Detector supporta i seguenti formati di data/ora per i valori inseritiEVENT_TIMESTAMP durante l'addestramento del modello:

  • %YYYy-%mm-%DDt%hH: %mm: %sSz (standard ISO 8601 solo in UTC senza millisecondi)

    Esempio: 2019-11-30T 13:01:01 Z

  • %aaaa/%mm/%dd %hh: %mm: %ss (AM/PM)

    Esempi: 30/11/2019 13:01:01 o 30/11/2019 13:01:01

  • %mm/%gd/%aaaa %hh: %mm: %ss

    Esempi: 30/11/2019 13:01:01, 30/11/2019 13:01:01

  • %mm/%dd/%yy %hh: %mm: %ss

    Esempi: 30/11/19 13:01:01 PM, 30/11/19 13:01:01

Amazon Fraud Detector fa le seguenti ipotesi quando analizza i formati di data/ora per i timestamp degli eventi:

  • Se si utilizza lo standard ISO 8601, deve corrispondere esattamente alla specifica precedente

  • Se si utilizza uno degli altri formati, è disponibile una flessibilità aggiuntiva:

    • Per mesi e giorni, puoi fornire cifre singole o doppie. Ad esempio, 1/12/2019 è una data valida.

    • Non è necessario includere hh:mm:ss se non li avete (cioè, potete semplicemente fornire una data). Puoi anche fornire un sottoinsieme delle sole ore e minuti (ad esempio, hh:mm). La semplice indicazione dell'ora non è supportata. Anche i millisecondi non sono supportati.

    • Se si forniscono etichette AM/PM, si presume un orologio di 12 ore. Se non sono disponibili informazioni AM/PM, si presume che l'orologio sia attivo 24 ore su 24.

    • È possibile utilizzare «/» o «-» come delimitatori per gli elementi della data. «:» è assunto per gli elementi del timestamp.

Campionamento del set di dati nel tempo

Ti consigliamo di fornire esempi di frode e campioni legittimi nello stesso intervallo temporale. Ad esempio, se fornisci eventi fraudolenti degli ultimi 6 mesi, dovresti fornire anche eventi legittimi che coprano lo stesso periodo di tempo. Se il set di dati contiene una distribuzione estremamente irregolare di frodi ed eventi legittimi, potresti ricevere il seguente errore: «La distribuzione delle frodi nel tempo è inaccettabilmente fluttuante. Impossibile suddividere correttamente il set di dati.» In genere, la soluzione più semplice per questo errore è garantire che gli eventi fraudolenti e gli eventi legittimi vengano campionati in modo uniforme nello stesso lasso di tempo. Potrebbe inoltre essere necessario rimuovere i dati se si verifica un forte aumento delle frodi in un breve periodo di tempo.

Se non riesci a generare dati sufficienti per creare un set di dati distribuito uniformemente, un approccio consiste nel randomizzare EVENT_TIMESTAMP dei tuoi eventi in modo che siano distribuiti uniformemente. Tuttavia, ciò spesso fa sì che le metriche delle prestazioni non siano realistiche perché Amazon Fraud Detector utilizza EVENT_TIMESTAMP per valutare i modelli sul sottoinsieme appropriato di eventi nel set di dati.

Valori nulli e mancanti

Amazon Fraud Detector gestisce i valori nulli e mancanti. Tuttavia, la percentuale di valori nulli per le variabili dovrebbe essere limitata. Le colonne EVENT_TIMESTAMP e EVENT_LABEL non devono contenere valori mancanti.

Convalida dei file

Amazon Fraud Detector non riuscirà ad addestrare un modello se viene attivata una delle seguenti condizioni:

  • Se il CSV non può essere analizzato

  • Se il tipo di dati di una colonna non è corretto