Archivia i dati degli eventi utilizzando l'importazione in batch - Amazon Fraud Detector

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Archivia i dati degli eventi utilizzando l'importazione in batch

Con la funzione di importazione in batch, puoi caricare rapidamente e facilmente set di dati di eventi storici di grandi dimensioni in Amazon Fraud Detector utilizzando la console, l'API o l'SDK AWS. Per utilizzare l'importazione in batch, crea un file di input in formato CSV che contenga tutti i dati dell'evento, carica il file CSV su un bucket Amazon S3 e avvia un processo di importazione. Amazon Fraud Detector convalida innanzitutto i dati in base al tipo di evento e quindi importa automaticamente l'intero set di dati. Una volta importati, i dati sono pronti per essere utilizzati per addestrare nuovi modelli o per riaddestrare modelli esistenti.

File di input e output

Il file CSV di input deve contenere intestazioni che corrispondono alle variabili definite nel tipo di evento associato più quattro variabili obbligatorie. Per ulteriori informazioni, consulta Prepara i dati degli eventi per l'archiviazione. La dimensione massima del file di dati di input è di 20 Gigabyte (GB), ovvero circa 50 milioni di eventi. Il numero di eventi varierà in base alle dimensioni dell'evento. Se il processo di importazione ha avuto successo, il file di output è vuoto. Se l'importazione non ha avuto successo, il file di output contiene i log degli errori.

Crea un file CSV

Amazon Fraud Detector importa dati solo da file in formato CSV (valori separati da virgola). La prima riga del file CSV deve contenere intestazioni di colonna che corrispondono esattamente alle variabili definite nel tipo di evento associato più quattro variabili obbligatorie: EVENT_ID, EVENT_TIMESTAMP, ENTITY_ID e ENTITY_TYPE. Puoi anche includere facoltativamente EVENT_LABEL e LABEL_TIMESTAMP (LABEL_TIMESTAMP è obbligatorio se è incluso EVENT_LABEL).

Definire le variabili obbligatorie

Le variabili obbligatorie sono considerate metadati degli eventi e devono essere specificate in lettere maiuscole. I metadati degli eventi vengono inclusi automaticamente per l'addestramento dei modelli. La tabella seguente elenca le variabili obbligatorie, la descrizione di ciascuna variabile e il formato richiesto per la variabile.

Nome Descrizione Requisiti

ID_EVENTO

Un identificatore per l'evento. Ad esempio, se l'evento è una transazione online, EVENT_ID potrebbe essere il numero di riferimento della transazione fornito al cliente.

  • L'EVENT_ID è obbligatorio per i processi di importazione in batch.

  • Deve essere univoco per quell'evento.

  • Dovrebbe rappresentare informazioni significative per la tua attività.

  • Deve soddisfare il modello di espressione regolare (ad esempio,^[0-9a-z_-]+$.)

  • Non è consigliabile aggiungere un timestamp a EVENT_ID. Questa operazione potrebbe causare problemi durante l'aggiornamento dell'evento. Questo perché devi fornire esattamente lo stesso EVENT_ID se lo fai.

TIMESTAMP DELL'EVENTO

Timestamp del momento in cui si è verificato l'evento. Il timestamp deve essere nello standard ISO 8601 in UTC.

  • L'EVENT_TIMESTAMP è obbligatorio per i processi di importazione in batch.

  • Deve essere specificato in uno dei seguenti formati:

    • %YYYy-%mm-%DDt%hH: %mm: %sSz (standard ISO 8601 solo in UTC senza millisecondi)

      Esempio: 2019-11-30T 13:01:01 Z

    • %aaaa/%mm/%dd %hh: %mm: %ss (AM/PM)

      Esempi: 30/11/2019 13:01:01 o 30/11/2019 13:01:01

    • %mm/%gd/%aaaa %hh: %mm: %ss

      Esempi: 30/11/2019 13:01:01, 30/11/2019 13:01:01

    • %mm/%dd/%yy %hh: %mm: %ss

      Esempi: 30/11/19 13:01:01 PM, 30/11/19 13:01:01

  • Amazon Fraud Detector fa le seguenti ipotesi quando analizza i formati di data/ora per i timestamp degli eventi:

    • Se si utilizza lo standard ISO 8601, deve corrispondere esattamente alla specifica precedente

    • Se si utilizza uno degli altri formati, è disponibile una flessibilità aggiuntiva:

      • Per mesi e giorni, puoi fornire cifre singole o doppie. Ad esempio, 1/12/2019 è una data valida.

      • Non è necessario includere hh:mm:ss se non li avete (cioè, potete semplicemente fornire una data). Puoi anche fornire un sottoinsieme delle sole ore e minuti (ad esempio, hh:mm). La semplice indicazione dell'ora non è supportata. Anche i millisecondi non sono supportati.

      • Se si forniscono etichette AM/PM, si presume un orologio di 12 ore. Se non sono disponibili informazioni AM/PM, si presume che l'orologio sia attivo 24 ore su 24.

      • È possibile utilizzare «/» o «-» come delimitatori per gli elementi della data. «:» è assunto per gli elementi del timestamp.

ENTITY_ID

Un identificatore per l'entità che esegue l'evento.

  • ENTITY_ID è obbligatorio per i processi di importazione in batch

  • Deve seguire lo schema delle espressioni regolari:^[0-9A-Za-z_.@+-]+$.

  • Se l'ID dell'entità non è disponibile al momento della valutazione, specifica l'ID dell'entità come sconosciuto.

TIPO_ENTITÀ

L'entità che organizza l'evento, ad esempio un commerciante o un cliente

ENTITY_TYPE è obbligatorio per i processi di importazione in batch

ETICHETTA_EVENTO

Classifica l'evento comefraudulent olegitimate

EVENT_LABEL è obbligatorio se è incluso LABEL_TIMESTAMP

TIMESTAMP DELL'ETICHETTA

Il timestamp dell'ultima volta che l'etichetta dell'evento è stata compilata o aggiornata

  • LABEL_TIMESTAMP è obbligatorio se è incluso EVENT_LABEL.

  • Deve seguire il formato del timestamp.

Caricare file CSV in Amazon S3 per l'importazione in batch

Dopo aver creato un file CSV con i tuoi dati, caricare il file nel bucket Amazon SStorage Service (Amazon S3).

Come caricare i dati degli eventi in un bucket Amazon S3
  1. Accedi alla AWS Management Console e apri la console di Amazon S3 all'indirizzo https://console.aws.amazon.com/s3/.

  2. Scegliere Create bucket (Crea bucket).

    Si apre la procedura guidata Create bucket (Crea bucket).

  3. In Bucket name (Nome bucket), immettere un nome conforme a DNS per il bucket.

    Il nome del bucket deve:

    • Essere univoco in tutto Amazon S3.

    • Deve contenere da 3 a 63 caratteri

    • Non contiene caratteri maiuscoli.

    • Iniziare con una lettera minuscola o un numero.

    Una volta creato il bucket, non è possibile modificarne il nome. Per informazioni sulla denominazione dei bucket, consulta Regole di denominazione dei bucket nella Guida per l'utente di Amazon SStorage Service.

    Importante

    Evitare di includere informazioni riservate, ad esempio numeri di account, nel nome del bucket. Il nome bucket è visibile nell'URL che punta agli oggetti nel bucket.

  4. In Regione scegliere la Regione AWS in cui si desidera che il bucket risieda. È necessario selezionare la stessa regione in cui si utilizza Amazon Fraud Detector, ovvero Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Europa (Irlanda), Asia Pacifico (Singapore) o Asia Pacifico (Sydney).

  5. In Bucket settings for Block Public Access (Impostazioni bucket per blocco dell'accesso pubblico), scegliere le impostazioni del blocco dell'accesso pubblico che si desidera applicare al bucket.

    Si consiglia di lasciare abilitate tutte le impostazioni. Per informazioni sul blocco dell'accesso pubblico, blocco accesso pubblico, consulUso dell'accesso pubblico, consulUso dell'accesso pubblico, consulUso dell'accesso pubblico, consulUso dell'accesso pubblico, consulUso dell'accesso pubblico, consulUso dell'accesso pubblico, consulUso dell'accesso pubblico, consulUso dell'accesso pubblico

  6. Seleziona Create bucket (Crea bucket).

  7. Caricare i file di dati di addestramento nel bucket Amazon S3. Prendi nota del percorso di localizzazione di Amazon S3 per il tuo file di training (ad esempio, s3://bucketname/object.csv).

Importazione in batch dei dati degli eventi nella console Amazon Fraud Detector

Puoi importare facilmente un gran numero di set di dati di eventi nella console Amazon Fraud Detector, utilizzando l'CreateBatchImportJobAPI o utilizzando l'SDK AWS. Prima di procedere, assicurati di aver seguito le istruzioni per preparare il set di dati come file CSV. Assicurati di aver caricato anche il file CSV in un bucket Amazon S3.

Utilizzo della console Amazon Fraud Detector

Per importare in batch i dati degli eventi nella console
  1. Apri la console AWS, accedi al tuo account e accedi ad Amazon Fraud Detector.

  2. Nel pannello di navigazione a sinistra, seleziona Eventi.

  3. Scegliere il tipo di evento.

  4. Seleziona la scheda Eventi memorizzati.

  5. Nel riquadro dei dettagli degli eventi archiviati, assicurati che l'inserimento degli eventi sia attivo.

  6. Nel riquadro Importa dati eventi, scegli Nuova importazione.

  7. Nella pagina di importazione di nuovi eventi, fornisci le seguenti informazioni:

    • [Consigliato] Lascia Attiva la convalida intelligente dei dati per questo set di dati - nuovo set all'impostazione predefinita.

    • Per il ruolo IAM per i dati, seleziona il ruolo IAM che hai creato per il bucket Amazon S3 che contiene il file CSV che intendi importare.

    • Per la posizione dei dati di input, inserisci la posizione S3 in cui hai il file CSV.

    • Se desideri specificare una posizione separata per archiviare i risultati dell'importazione, fai clic sul pulsante Separa posizione dati per input e risultati e fornisci una posizione valida per il bucket Amazon S3.

    Importante

    Assicurati che il ruolo IAM selezionato disponga delle autorizzazioni di lettura per il bucket Amazon S3 di input e di scrittura per il bucket Amazon S3 di output.

  8. Scegli Start (Avvia).

  9. La colonna Stato nel riquadro Importa dati eventi mostra lo stato del processo di convalida e importazione. Il banner in alto fornisce una descrizione di alto livello dello stato quando il set di dati viene prima sottoposto alla convalida e poi all'importazione.

  10. Segui le indicazioni fornite aMonitorare l'avanzamento della convalida del set di dati e del processo di importazione.

Monitorare l'avanzamento della convalida del set di dati e del processo di importazione

Se utilizzi la console Amazon Fraud Detector per eseguire un processo di importazione in batch, per impostazione predefinita, Amazon Fraud Detector convalida il set di dati prima dell'importazione. Puoi monitorare l'avanzamento e lo stato dei processi di convalida e importazione nella pagina di importazione di nuovi eventi della console Amazon Fraud Detector. Un banner nella parte superiore della pagina fornisce una breve descrizione dei risultati della convalida e dello stato del processo di importazione. A seconda dei risultati della convalida e dello stato del processo di importazione, potrebbe essere necessario intraprendere azioni per garantire la corretta convalida e importazione del set di dati.

La tabella seguente fornisce i dettagli delle azioni da intraprendere in base all'esito delle operazioni di convalida e importazione.

Messaggio banner Stato Significato Cosa devo fare
La convalida dei dati è iniziata Convalida in corso SDV ha iniziato a convalidare il set di dati Attendi che lo stato cambi
La convalida dei dati non può procedere a causa di errori nel set di dati. Correggi gli errori nel tuo file di dati e avvia un nuovo processo di importazione. Consulta il rapporto di convalida per ulteriori informazioni Convalida fallita SDV ha identificato problemi nel file di dati. Questi problemi devono essere risolti per una corretta importazione del set di dati. Nel riquadro Importa dati eventi, seleziona l'ID del Job e visualizza il rapporto di convalida. Segui i consigli contenuti nel rapporto per risolvere tutti gli errori elencati. Per ulteriori informazioni, consulta Utilizzo del rapporto di convalida.
L'importazione dei dati è iniziata. Convalida completata correttamente Importazione in corso Il set di dati ha superato la convalida. AFD ha iniziato a importare il tuo set di dati Attendi che lo stato cambi
Convalida completata con avvisi. L'importazione dei dati è iniziata Importazione in corso La convalida di alcuni dati del set di dati non è riuscita. Tuttavia, i dati che hanno superato la convalida soddisfano i requisiti minimi di dimensione dei dati per l'importazione. Monitora il messaggio nel banner e attendi che lo stato cambi
I tuoi dati sono stati importati parzialmente. Alcuni dati non sono stati convalidati e non sono stati importati. Consultare il rapporto di convalida per ulteriori informazioni. Importato. Lo stato mostra un'icona di avviso. Alcuni dei dati del file di dati che non sono stati convalidati non sono stati importati. Il resto dei dati che hanno superato la convalida è stato importato. Nel riquadro Importa dati eventi, seleziona l'ID del Job e visualizza il rapporto di convalida. Segui i consigli nella tabella degli avvisi a livello di dati per rispondere agli avvisi elencati. Non è necessario rispondere a tutte le avvertenze. Tuttavia, assicurati che il tuo set di dati contenga più del 50% dei dati che superano la convalida per una corretta importazione. Dopo aver risposto agli avvisi, avvia un nuovo processo di importazione. Per ulteriori informazioni, consulta Utilizzo del rapporto di convalida.
L'importazione dei dati non è riuscita a causa di un errore di elaborazione. Avvio di un nuovo processo di importazione di dati Importazione non riuscita L'importazione non è riuscita a causa di un errore transitorio in fase di esecuzione Avvio di un nuovo processo di importazione
I dati sono stati importati con successo importato Sia la convalida che l'importazione sono state completate con successo Seleziona l'ID del Job di importazione per visualizzare i dettagli e quindi procedi con l'addestramento del modello
Nota

Ti consigliamo di attendere 10 minuti dopo che il set di dati è stato importato correttamente in Amazon Fraud Detector per assicurarti che vengano completamente assorbiti dal sistema.

Rapporto di convalida intelligente dei dati

La convalida intelligente dei dati crea un rapporto di convalida al termine della convalida. Il rapporto di convalida fornisce dettagli su tutti i problemi che SDV ha identificato nel set di dati, con azioni suggerite per risolvere i problemi più gravi. È possibile utilizzare il rapporto di convalida per determinare quali sono i problemi, dove si trovano nel set di dati, la gravità dei problemi e come risolverli. Il rapporto di convalida viene creato anche quando la convalida viene completata correttamente. In questo caso, puoi visualizzare il rapporto per vedere se ci sono problemi elencati e, in caso affermativo, decidere se vuoi correggerli.

Nota

La versione attuale di SDV analizza il set di dati alla ricerca di problemi che potrebbero causare il fallimento dell'importazione in batch. Se la convalida e l'importazione in batch hanno esito positivo, il set di dati può ancora presentare problemi che potrebbero causare il fallimento dell'addestramento del modello. Ti consigliamo di visualizzare il rapporto di convalida anche se la convalida e l'importazione hanno avuto esito positivo e di risolvere eventuali problemi elencati nel rapporto per una corretta formazione del modello. Dopo aver risolto i problemi, crea un nuovo processo di importazione in batch.

Accesso al rapporto di convalida

È possibile accedere al rapporto di convalida in qualsiasi momento dopo il completamento della convalida utilizzando una delle seguenti opzioni:

  1. Al termine della convalida e mentre il processo di importazione è in corso, nel banner in alto, scegli Visualizza rapporto di convalida.

  2. Al termine del processo di importazione, nel riquadro Importa dati eventi, scegli l'ID del Job di importazione appena completato.

Utilizzo del rapporto di convalida

La pagina del rapporto di convalida del processo di importazione fornisce i dettagli di questo processo di importazione, un elenco degli eventuali errori critici, un elenco di avvisi su eventi specifici (righe) nel set di dati, se trovati, e un breve riepilogo del set di dati che include informazioni quali valori non validi e valori mancanti per ogni variabile.

  • Importa i dettagli del lavoro

    Fornisce i dettagli del processo di importazione. Se il processo di importazione non è riuscito o il set di dati è stato importato parzialmente, scegli Vai al file dei risultati per visualizzare i log degli errori degli eventi che non sono stati importati.

  • Errori critici

    Fornisce dettagli sui problemi più importanti del set di dati identificato da SDV. Tutti i problemi elencati in questo riquadro sono critici ed è necessario risolverli prima di procedere con l'importazione. Se si tenta di importare il set di dati senza risolvere i problemi critici, il processo di importazione potrebbe non riuscire.

    Per risolvere i problemi critici, segui i consigli forniti per ogni avviso. Dopo aver risolto tutti i problemi elencati nel riquadro Errori critici, crea un nuovo processo di importazione in batch.

  • Avvisi a livello di dati

    Fornisce un riepilogo degli avvisi per eventi specifici (righe) nel set di dati. Se il riquadro degli avvisi a livello di dati è popolato, alcuni eventi nel set di dati non sono stati convalidati e non sono stati importati.

    Per ogni avviso, la colonna Descrizione mostra il numero di eventi che presentano il problema. Inoltre, gli ID degli eventi di esempio forniscono un elenco parziale di ID di eventi di esempio che è possibile utilizzare come punto di partenza per individuare il resto degli eventi che presentano il problema. Utilizza la Raccomandazione fornita per l'avviso per risolvere il problema. Utilizza anche i log degli errori del file di output per ulteriori informazioni sul problema. I log degli errori vengono generati per tutti gli eventi che non sono riusciti a importare in batch. Per accedere ai registri degli errori, nel riquadro Importa dettagli del lavoro, scegli Vai al file dei risultati.

    Nota

    Se più del 50% degli eventi (righe) nel set di dati non è stata convalidata, anche il processo di importazione ha esito negativo. In questo caso, è necessario correggere i dati prima di iniziare un nuovo processo di importazione.

  • Riepilogo del set di dati

    Fornisce un riepilogo del rapporto di convalida del set di dati. Se la colonna Numero di avvisi mostra più di 0 avvisi, decidi se è necessario correggere tali avvisi. Se la colonna Numero di avvisi mostra 0, continua ad addestrare il tuo modello.

Importazione in batch di dati di eventi tramite SDK AWS per Python (Boto3)

Nell'esempio seguente viene illustrata una richiesta di esempio per CreateBatchImportJobAPI. Un processo di importazione in batch deve includere JobID, InputPath, OutputPath eventTypeNamee iamRoleArn. Il JoBid non può contenere lo stesso ID di un lavoro passato, a meno che il lavoro non esista nello stato CREATE_FAILED. InputPath e OutputPath devono essere percorsi S3 validi. Puoi scegliere di non specificare il nome del file in OutputPath, tuttavia dovrai comunque fornire una posizione valida del bucket S3. La eventTypeName terra iamRoleArn deve esistere. Il ruolo IAM deve concedere le autorizzazioni di lettura per l'ingresso del bucket Amazon S3 e le autorizzazioni di scrittura per l'output del bucket Amazon S3.

import boto3 fraudDetector = boto3.client('frauddetector') fraudDetector.create_batch_import_job ( jobId = 'sample_batch_import', inputPath = 's3://bucket_name/input_file_name.csv', outputPath = 's3://bucket_name/', eventTypeName = 'sample_registration', iamRoleArn: 'arn:aws:iam::************:role/service-role/AmazonFraudDetector-DataAccessRole-*************' )

Annullare il processo di importazione in batch

Puoi annullare un processo di importazione in batch in corso in qualsiasi momento nella console di Amazon Fraud Detector, utilizzando l'CancelBatchImportJobAPI o l'SDK AWS.

Per annullare un processo di importazione in batch nella console,
  1. Apri la console AWS, accedi al tuo account e accedi ad Amazon Fraud Detector.

  2. Nel pannello di navigazione a sinistra, seleziona Eventi.

  3. Scegliere il tipo di evento.

  4. Seleziona la scheda Eventi memorizzati.

  5. Nel riquadro Importa dati eventi, scegli l'ID del processo di importazione in corso che desideri annullare.

  6. Nella pagina del processo dell'evento, fai clic su Azioni e seleziona Annulla l'importazione degli eventi.

  7. Scegli Interrompi l'importazione degli eventi per annullare il processo di importazione in batch.

Annullamento del processo di importazione in batch tramite SDK AWS per Python (Boto3)

Nell'esempio seguente viene illustrata una richiesta di esempio per l'CancelBatchImportJobAPI. L'operazione di annullamento dell'importazione deve includere l'ID del processo di importazione in batch in corso.

import boto3 fraudDetector = boto3.client('frauddetector') fraudDetector.cancel_batch_import_job ( jobId = 'sample_batch' )