Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Crear archivo CSV CSV
Amazon Fraud Detector requiere que la primera fila del archivo CSV contenga encabezados de columna. Los encabezados de las columnas del archivo CSV deben corresponder a las variables definidas en el tipo de evento. Para ver un conjunto de datos de ejemplo, consulteObtener y cargar un conjunto de datos de ejemplo
El modelo Online Fraud Insights requiere un conjunto de datos de entrenamiento que tenga al menos 2 variables y hasta 100 variables. Además de las variables de eventos, el conjunto de datos de entrenamiento debe contener los siguientes encabezados:
-
EVENT_TIMESTAMP: define cuándo se produjo el evento
-
EVENT_LABEL: clasifica el evento como fraudulento o legítimo. Los valores de la columna deben corresponder a los valores definidos en el tipo de evento.
El siguiente ejemplo de datos en CSV representa el historial de eventos de registro de un comerciante en línea:
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
nota
El archivo de datos CSV puede contener comillas dobles y comas como parte de los datos.
A continuación se muestra una versión simplificada del tipo de evento correspondiente. Las variables de evento corresponden a los encabezados del archivo CSV y los valores contenidos enEVENT_LABEL
corresponden a los valores de la lista de etiquetas.
( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )
Formatos de marca de tiempo de eventos
Asegúrese de que la marca de tiempo del evento esté en el formato requerido. Como parte del proceso de creación del modelo, el modelo Online Fraud Insights ordena los datos en función de la marca de tiempo del evento y los divide con fines de capacitación y prueba. Para obtener una estimación justa del rendimiento, el modelo primero se entrena en el conjunto de datos de entrenamiento y, a continuación, lo prueba en el conjunto de datos de prueba.
Amazon Fraud Detector admite los siguientes formatos de fecha y hora para los valores que se utilizanEVENT_TIMESTAMP
durante el entrenamiento del modelo:
%YYYY-%MM-%DDT%HH: %mm: %sSz (estándar ISO 8601 solo en UTC sin milisegundos)
Ejemplo: 2019-11-30T 13:01:01 Z
-
%aaaa/%mm/%dd %hh: %mm: %s (mañana y tarde)
Ejemplos: 30 de noviembre de 2019 a las 13:01:01 p. m., o 30 de noviembre de 2019 a las 13:00:01
%mm/%dd/%aaaa %hh: %mm: %ss
Ejemplos: 30/11/2019 1:01:01 p.m., 30/11/2019 13:01:01
%mm/%dd/%yy %h: %mm: %s
Ejemplos: 30/11/19 1:01:01 p.m., 11/30/19 13:01:01
Amazon Fraud Detector hace las siguientes suposiciones al analizar los formatos de fecha y hora para las marcas de tiempo de los eventos:
Si utiliza la norma ISO 8601, debe coincidir exactamente con la especificación anterior
Si utiliza uno de los otros formatos, hay flexibilidad adicional:
Para meses y días, puedes proporcionar uno o dos dígitos. Por ejemplo, el 12 de enero de 2019 es una fecha válida.
No necesita incluir hh:mm:ss si no los tiene (es decir, simplemente puede proporcionar una fecha). También puede proporcionar un subconjunto de solo la hora y los minutos (por ejemplo, hh:mm). No se admite solo proporcionar la hora. Tampoco se admiten milisegundos.
Si proporciona etiquetas de mañana a tarde, se asume que es un reloj de 12 horas. Si no hay información AM/PM, se asume que el reloj es de 24 horas.
Puede utilizar «/» o «-» como delimitadores para los elementos de fecha. Se asume «:» para los elementos de marca de tiempo.
Muestreo de su conjunto de datos a lo largo del tiempo
Le recomendamos que proporcione ejemplos de fraude y muestras legítimas del mismo intervalo de tiempo. Por ejemplo, si proporciona eventos de fraude de los últimos 6 meses, también debe proporcionar eventos legítimos que abarquen el mismo período de tiempo de manera uniforme. Si tu conjunto de datos contiene una distribución muy desigual del fraude y los eventos legítimos, es posible que recibas el siguiente error: «La distribución del fraude a lo largo del tiempo fluctúa de manera inaceptable. No se puede dividir el conjunto de datos correctamente». Por lo general, la solución más sencilla para este error es garantizar que los eventos de fraude y los eventos legítimos se muestreen de manera uniforme en el mismo período de tiempo. También es posible que tengas que eliminar datos si has experimentado un gran aumento del fraude en poco tiempo.
Si no puedes generar suficientes datos para crear un conjunto de datos distribuido de manera uniforme, un método consiste en aleatorizar el EVENT_TIMESTAMP de tus eventos de manera que se distribuyan de manera uniforme. Sin embargo, esto suele provocar que las métricas de rendimiento no sean realistas, ya que Amazon Fraud Detector utiliza EVENT_TIMESTAMP para evaluar los modelos del subconjunto de eventos correspondiente del conjunto de datos.
Valores nulos y faltantes
Amazon Fraud Detector gestiona los valores nulos y faltantes. Sin embargo, el porcentaje de valores nulos para las variables debe ser limitado. Las columnas EVENT_TIMESTAMP y EVENT_LABEL no deben contener ningún valor faltante.
Validación de archivos
Amazon Fraud Detector no podrá entrenar un modelo si se activa alguna de las siguientes condiciones:
-
Si no se puede analizar el CSV
-
Si el tipo de datos de una columna es incorrecto