Almacene los datos de eventos mediante la importación por lotes - Amazon Fraud Detector

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Almacene los datos de eventos mediante la importación por lotes

Con la función de importación por lotes, puede cargar de forma rápida y sencilla grandes conjuntos de datos de eventos históricos en Amazon Fraud Detector mediante la consola, la API o el SDK de AWS. Para utilizar la importación por lotes, cree un archivo de entrada en formato CSV que contenga todos los datos de sus eventos, cárguelo en el bucket de Amazon S3 e inicie un trabajo de importación. Amazon Fraud Detector primero valida los datos en función del tipo de evento y, a continuación, importa automáticamente todo el conjunto de datos. Una vez importados los datos, están listos para usarse para entrenar modelos nuevos o para volver a entrenar modelos existentes.

Archivos de entrada y salida

El archivo CSV de entrada debe contener encabezados que coincidan con las variables definidas en el tipo de evento asociado más cuatro variables obligatorias. Para obtener más información, consulte Preparar los datos de eventos para su almacenamiento. El tamaño máximo del archivo de datos de entrada es de 20 Gigabytes (GB), es decir, unos 50 millones de eventos. La cantidad de eventos variará según el tamaño del evento. Si el trabajo de importación se ha realizado correctamente, el archivo de salida está vacío. Si la importación no se realizó correctamente, el archivo de salida contiene los registros de errores.

Crear un archivo CSV CSV CSV

Amazon Fraud Detector solo importa datos de archivos que están en formato CSV (CSV). La primera fila del archivo CSV debe contener encabezados de columna que coincidan exactamente con las variables definidas en el tipo de evento asociado, además de cuatro variables obligatorias: EVENT_ID, EVENT_TIMESTAMP, ENTITY_ID y ENTITY_TYPE. También puedes incluir, opcionalmente, EVENT_LABEL y LABEL_TIMESTAMP (si se incluye EVENT_LABEL, se requiere LABEL_TIMESTAMP).

Definir variables obligatorias

Las variables obligatorias se consideran metadatos de eventos y deben especificarse en mayúsculas. Los metadatos de los eventos se incluyen automáticamente para el entrenamiento del modelo. En la siguiente tabla se enumeran las variables obligatorias, la descripción de cada variable y el formato requerido para la variable.

Nombre Descripción Requisitos

ID_DE_EVENTO

Un identificador del evento. Por ejemplo, si tu evento es una transacción en línea, el EVENT_ID puede ser el número de referencia de la transacción que se le proporcionó a tu cliente.

  • El EVENT_ID es obligatorio para los trabajos de importación por lotes.

  • Debe ser único para ese evento.

  • Debe representar información que sea significativa para su empresa.

  • Debe satisfacer el patrón de expresiones regulares (por ejemplo,^[0-9a-z_-]+$.)

  • No te recomendamos que añadas una marca de tiempo al EVENT_ID. Hacerlo podría causar problemas al actualizar el evento. Esto se debe a que debes proporcionar exactamente el mismo EVENT_ID si lo haces.

EVENT_TIMESTAMP

La marca de tiempo de cuando se produjo el evento. La marca de tiempo debe estar en la norma ISO 8601 en UTC.

  • El EVENT_TIMESTAMP es obligatorio para los trabajos de importación por lotes.

  • Debe especificarse en uno de los siguientes formatos:

    • %YYYY-%MM-%DDT%HH: %mm: %sSz (estándar ISO 8601 solo en UTC sin milisegundos)

      Ejemplo: 2019-11-30T 13:01:01 Z

    • %aaaa/%mm/%dd %hh: %mm: %s (mañana y tarde)

      Ejemplos: 30 de noviembre de 2019 a las 13:01:01 p. m., o 30 de noviembre de 2019 a las 13:00:01

    • %mm/%dd/%aaaa %hh: %mm: %ss

      Ejemplos: 30/11/2019 1:01:01 p.m., 30/11/2019 13:01:01

    • %mm/%dd/%yy %h: %mm: %s

      Ejemplos: 30/11/19 1:01:01 p.m., 11/30/19 13:01:01

  • Amazon Fraud Detector hace las siguientes suposiciones al analizar los formatos de fecha y hora para las marcas de tiempo de los eventos:

    • Si utiliza la norma ISO 8601, debe coincidir exactamente con la especificación anterior

    • Si utiliza uno de los otros formatos, hay flexibilidad adicional:

      • Para meses y días, puedes proporcionar uno o dos dígitos. Por ejemplo, el 12 de enero de 2019 es una fecha válida.

      • No necesita incluir hh:mm:ss si no los tiene (es decir, simplemente puede proporcionar una fecha). También puede proporcionar un subconjunto de solo la hora y los minutos (por ejemplo, hh:mm). No se admite solo proporcionar la hora. Tampoco se admiten milisegundos.

      • Si proporciona etiquetas de mañana a tarde, se asume que es un reloj de 12 horas. Si no hay información AM/PM, se asume que el reloj es de 24 horas.

      • Puede utilizar «/» o «-» como delimitadores para los elementos de fecha. Se asume «:» para los elementos de marca de tiempo.

IDENTIDAD_ENTIDAD

Un identificador de la entidad que está realizando el evento.

  • Se requiere ENTITY_ID para los trabajos de importación por lotes

  • Debe seguir el patrón de expresiones regulares:^[0-9A-Za-z_.@+-]+$.

  • Si el identificador de la entidad no está disponible en el momento de la evaluación, especifique el identificador de la entidad como desconocido.

TIPO_DE_ENTIDAD

La entidad que realiza el evento, como un comerciante o un cliente

ENTITY_TYPE es obligatorio para los trabajos de importación por lotes

ETIQUETA_DE_EVENTO

Clasifica el evento comofraudulent olegitimate

Se requiere EVENT_LABEL si se incluye LABEL_TIMESTAMP

LABEL_TIMESTAMP

La marca de tiempo en la que se rellenó o actualizó la etiqueta del evento por última vez

  • LABEL_TIMESTAMP es obligatorio si se incluye EVENT_LABEL.

  • Debe seguir el formato de marca de tiempo.

Carga de un archivo CSV en Amazon S3 para importarlo de lotes

Después de crear un archivo CSV con sus datos, carga el archivo en su bucket de Amazon Simple Storage Service (Amazon S3).

Para cargar datos de eventos en un bucket de Amazon S3
  1. Inicie sesión en la AWS Management Console y abra la consola de Amazon S3 en https://console.aws.amazon.com/s3/.

  2. Elija Create bucket (Crear bucket).

    Se abrirá el asistente Crear bucket (Crear bucket).

  3. En Bucket name (Nombre del bucket), escriba un nombre compatible con DNS para el bucket.

    El nombre del bucket debe:

    • Ser único en todo Amazon S3.

    • Tener entre 3 y 63 caracteres.

    • No contiene caracteres en mayúsculas.

    • Comenzar por una letra minúscula o un número.

    Una vez que haya creado el bucket, no podrá modificar su nombre. Para obtener información sobre la nomenclatura de buckets, consulte Reglas de nomenclatura de buckets en la Guía del usuario de Amazon Simple Storage Service.

    importante

    Evite incluir información confidencial, como números de cuenta, en el nombre del bucket. El nombre del bucket será visible en las URL que señalan a los objetos almacenados en él.

  4. En Region (Región), elija la región de AWS en la que desea que se encuentre el bucket. Debe seleccionar la misma región en la que está utilizando Amazon Fraud Detector (Oregón).

  5. En Configuración del bucket para Block Public Access, elija la configuración de Block Public Access que desee aplicar al bucket.

    Le recomendamos que deje habilitada toda la configuración. Para obtener más información sobre el bloqueo de acceso público, consulte Bloquear el acceso público a su almacenamiento de Amazon Simple Storage Service.

  6. Elija Crear bucket.

  7. Cargue el archivo de datos de entrenamiento en su bucket de Amazon S3. Anote la ruta de ubicación de Amazon S3 para su archivo de entrenamiento (por ejemplo, s3://bucketname/object.csv).

Importación Batch de datos de eventos en la consola de Amazon Fraud Detector

Puede importar fácilmente una gran cantidad de sus conjuntos de datos de eventos en la consola de Amazon Fraud Detector, mediante laCreateBatchImportJob API o el SDK de AWS. Antes de continuar, asegúrese de haber seguido las instrucciones para preparar el conjunto de datos como un archivo CSV. Asegúrese de cargar también el archivo CSV en un bucket de Amazon S3.

Uso de la consola Amazon Fraud Detector

Para importar datos de eventos por lotes en la consola
  1. Abra la consola de AWS, inicie sesión en su cuenta y vaya a Amazon Fraud Detector.

  2. En el panel de navegación izquierdo, elija Events.

  3. Elige el tipo de evento.

  4. Selecciona la pestaña Eventos almacenados.

  5. En el panel de detalles de los eventos almacenados, asegúrese de que la ingesta de eventos esté activada.

  6. En el panel Importar datos de eventos, seleccione Nueva importación.

  7. En la página de importación de nuevos eventos, proporcione la siguiente información:

    • [Recomendado] Deje la opción Habilitar la validación inteligente de datos para este conjunto de datos: nueva configuración con la configuración predeterminada.

    • Para la función de IAM para datos, seleccione la función de IAM que creó para el bucket de Amazon S3 que contiene el archivo CSV que tiene previsto importar.

    • En Ubicación de datos de entrada, introduce la ubicación de S3 donde tienes tu archivo CSV.

    • Si desea especificar una ubicación independiente para almacenar los resultados de la importación, haga clic en el botón Separar la ubicación de datos para las entradas y los resultados y proporcione una ubicación de bucket de Amazon S3 válida.

    importante

    Asegúrese de que el rol de IAM que ha seleccionado tenga permisos de lectura para su bucket de Amazon S3 de entrada y permisos de escritura para su bucket de Amazon S3 de salida.

  8. Elija Start (Inicio).

  9. La columna Estado del panel de datos de eventos de importación muestra el estado del trabajo de validación e importación. El banner de la parte superior proporciona una descripción detallada del estado, ya que el conjunto de datos pasa primero por la validación y, luego, por la importación.

  10. Siga las instrucciones proporcionadas paraMonitorear el progreso del trabajo de validación e importación de conjuntos de datos.

Monitorear el progreso del trabajo de validación e importación de conjuntos de datos

Si utiliza la consola de Amazon Fraud Detector para realizar un trabajo de importación por lotes, de forma predeterminada, Amazon Fraud Detector valida su conjunto de datos antes de la importación. Puede supervisar el progreso y el estado de los trabajos de validación e importación en la página de importación de nuevos eventos de la consola de Amazon Fraud Detector. En la parte superior de la página se muestra una breve descripción de los resultados de la validación y el estado del trabajo de importación. Según los resultados de la validación y el estado de su trabajo de importación, es posible que deba tomar medidas para garantizar que la validación e importación del conjunto de datos se realicen correctamente.

La siguiente tabla proporciona detalles de las acciones que debe realizar en función del resultado de las operaciones de validación e importación.

Mensaje de pancarta Estado Qué significa Qué debo hacer
Se ha iniciado la validación de datos Validación en curso SDV ha empezado a validar su conjunto de datos Espere a que cambie el estado
La validación de datos no puede continuar debido a errores en el conjunto de datos. Corrija los errores del archivo de datos e inicie un nuevo trabajo de importación. Consulte el informe de validación para obtener más información Fallo en la validación El SDV identificó problemas en tu archivo de datos. Estos problemas deben solucionarse para que la importación del conjunto de datos se realice correctamente. En el panel Importar datos de eventos, seleccione el identificador del Job y consulte el informe de validación. Siga las recomendaciones del informe para corregir todos los errores de la lista. Para obtener más información, consulte Uso del informe de validación.
Se ha iniciado la importación de datos. La validación se ha completado correctamente Importación en curso Su conjunto de datos ha superado la validación. AFD ha empezado a importar su conjunto de datos Espere a que cambie el estado
La validación se completó con advertencias. Se ha iniciado la importación de datos Importación en curso Algunos de los datos del conjunto de datos no se validaron. Sin embargo, los datos que superaron la validación cumplen con los requisitos mínimos de tamaño de datos para la importación. Supervisa el mensaje del banner y espera a que cambie el estado
Sus datos se importaron parcialmente. Algunos de los datos no se validaron y no se importaron. Consulte el informe de validación para obtener más información. Importado. El estado muestra un icono de advertencia. Algunos de los datos del archivo de datos que no se pudieron validar no se importaron. Se importó el resto de los datos que superaron la validación. En el panel Importar datos de eventos, seleccione el identificador del Job y consulte el informe de validación. Siga las recomendaciones de la tabla de advertencias a nivel de datos para abordar las advertencias enumeradas. No es necesario abordar todas las advertencias. Sin embargo, asegúrese de que su conjunto de datos tenga más del 50% de los datos que superen la validación para que la importación se realice correctamente. Después de abordar las advertencias, inicie un nuevo trabajo de importación. Para obtener más información, consulte Uso del informe de validación.
No se pudo importar los datos debido a un error de procesamiento. Iniciar un nuevo trabajo de importación de datos Importación de errores La importación falló debido a un error transitorio en tiempo de ejecución Iniciar un nuevo trabajo de importación
Los datos se importaron correctamente Importado Tanto la validación como la importación se completaron correctamente Seleccione el identificador de Job de su trabajo de importación para ver los detalles y, a continuación, continúe con la formación del modelo.
nota

Recomendamos esperar 10 minutos después de que el conjunto de datos se haya importado correctamente a Amazon Fraud Detector para garantizar que el sistema los haya asimilado por completo.

Informe de validación de datos inteligentes

La validación inteligente de datos crea un informe de validación una vez finalizada la validación. El informe de validación proporciona detalles de todos los problemas que el SDV ha identificado en tu conjunto de datos, con sugerencias de acciones para solucionar los problemas más impactantes. Puede utilizar el informe de validación para determinar cuáles son los problemas, dónde se encuentran en el conjunto de datos, la gravedad de los problemas y cómo solucionarlos. El informe de validación se crea incluso cuando la validación se completa correctamente. En este caso, puede ver el informe para ver si hay algún problema en la lista y, si lo hay, decidir si desea solucionar alguno de ellos.

nota

La versión actual del SDV analiza el conjunto de datos en busca de problemas que puedan provocar un error en la importación por lotes. Si la validación y la importación por lotes se realizan correctamente, es posible que el conjunto de datos siga teniendo problemas que puedan provocar un error en el entrenamiento del modelo. Le recomendamos que consulte el informe de validación aunque la validación y la importación se hayan realizado correctamente, y que aborde todos los problemas que figuran en el informe para que la formación del modelo se realice correctamente. Después de solucionar los problemas, cree un nuevo trabajo de importación por lotes.

Acceder al informe de validación

Puede acceder al informe de validación en cualquier momento una vez finalizada la validación mediante una de las siguientes opciones:

  1. Una vez finalizada la validación y mientras el trabajo de importación esté en curso, en el encabezado superior, seleccione Ver informe de validación.

  2. Una vez finalizado el Job de importación, en el panel Importar datos de eventos, elija el ID de trabajo del trabajo de importación que se acaba de completar.

Uso del informe de validación

La página del informe de validación de su trabajo de importación proporciona los detalles de este trabajo de importación, una lista de los errores críticos, si se encuentran, una lista de advertencias sobre eventos (filas) específicos del conjunto de datos, si se encuentran, y un breve resumen del conjunto de datos que incluye información como los valores que no son válidos y los valores que faltan para cada variable.

  • Importar detalles del trabajo

    Proporciona detalles del trabajo de importación. Si el trabajo de importación ha fallado o el conjunto de datos se ha importado parcialmente, elija Ir al archivo de resultados para ver los registros de errores de los eventos que no se pudieron importar.

  • Errores críticos

    Proporciona detalles de los problemas más impactantes del conjunto de datos identificados por el SDV. Todos los problemas que aparecen en este panel son críticos y debe solucionarlos antes de continuar con la importación. Si intenta importar su conjunto de datos sin abordar los problemas críticos, es posible que su tarea de importación falle.

    Para abordar los problemas críticos, siga las recomendaciones proporcionadas para cada advertencia. Tras solucionar todos los problemas enumerados en el panel Errores críticos, cree un nuevo trabajo de importación por lotes.

  • Advertencias de nivel de datos

    Proporciona un resumen de las advertencias para eventos específicos (filas) del conjunto de datos. Si el panel de advertencias a nivel de datos está lleno, algunos de los eventos del conjunto de datos no se validaron y no se importaron.

    Para cada advertencia, la columna Descripción muestra el número de eventos que causan el problema. Además, los identificadores de eventos de ejemplo proporcionan una lista parcial de identificadores de eventos de muestra que puede utilizar como punto de partida para localizar el resto de los eventos que tienen el problema. Utilice la recomendación proporcionada como advertencia para solucionar el problema. Utilice también los registros de errores del archivo de salida para obtener información adicional sobre el problema. Los registros de errores se generan para todos los eventos en los que no se pudo importar el lote. Para acceder a los registros de errores, en el panel Importar detalles del trabajo, elija Ir al archivo de resultados.

    nota

    Si más del 50% de los eventos (filas) del conjunto de datos no se validaron, también se producirá un error en el trabajo de importación. En este caso, debe corregir los datos antes de iniciar un nuevo trabajo de importación.

  • Resumen del conjunto de datos

    Proporciona un resumen del informe de validación del conjunto de datos. Si la columna Número de advertencias muestra más de 0 advertencias, decide si necesitas corregir esas advertencias. Si la columna Número de advertencias muestra 0, continúa entrenando tu modelo.

Importación de datos de eventos de eventos de AWS para Python (Boto3)

En el ejemplo siguiente se muestra una solicitud de ejemplo CreateBatchImportJobde API. Un trabajo de importación por lotes debe incluir JoBid, InputPath, OutputPath eventTypeNamey iamRoleArn. El JoBid no puede contener el mismo ID de un trabajo anterior, a menos que el trabajo exista en el estado CREATE_FAILED. Las rutas InputPath y OutputPath deben ser rutas S3 válidas. Puede optar por no especificar el nombre del archivo en OutputPath; sin embargo, deberá proporcionar una ubicación de bucket de S3 válida. La eventTypeName tierra iamRoleArn debe existir. El rol de IAM debe conceder permisos de lectura para ingresar el bucket de Amazon S3 y permisos de escritura para generar el bucket de Amazon S3.

import boto3 fraudDetector = boto3.client('frauddetector') fraudDetector.create_batch_import_job ( jobId = 'sample_batch_import', inputPath = 's3://bucket_name/input_file_name.csv', outputPath = 's3://bucket_name/', eventTypeName = 'sample_registration', iamRoleArn: 'arn:aws:iam::************:role/service-role/AmazonFraudDetector-DataAccessRole-*************' )

Cancelar trabajo de importación por lotes

Puede cancelar un trabajo de importación por lotes en curso en cualquier momento en la consola de Amazon Fraud Detector, mediante laCancelBatchImportJob API o el SDK de AWS.

Para cancelar un trabajo de importación de lotes en la consola,
  1. Abra la consola de AWS, inicie sesión en su cuenta y vaya a Amazon Fraud Detector.

  2. En el panel de navegación izquierdo, elija Events.

  3. Elige el tipo de evento.

  4. Selecciona la pestaña Eventos almacenados.

  5. En el panel Importar datos de eventos, elija el identificador de trabajo de un trabajo de importación en curso que desee cancelar.

  6. En la página del trabajo del evento, haga clic en Acciones y seleccione Cancelar la importación de eventos.

  7. Elija Detener la importación de eventos para cancelar el trabajo de importación por lotes.

Cancelación de un trabajo de importación de lotes utilizando el SDK de AWS para Python (Boto3)

En el ejemplo siguiente se muestra una solicitud de ejemplo para laCancelBatchImportJob API. El trabajo de importación cancelado debe incluir el identificador de un trabajo de importación por lotes en curso.

import boto3 fraudDetector = boto3.client('frauddetector') fraudDetector.cancel_batch_import_job ( jobId = 'sample_batch' )