Información sobre el fraude en línea - Amazon Fraud Detector

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Información sobre el fraude en línea

Online Fraud Insights es un modelo de aprendizaje automático supervisado, lo que significa que utiliza ejemplos históricos de transacciones fraudulentas y legítimas para entrenar el modelo. El modelo Online Fraud Insights puede detectar el fraude basándose en pocos datos históricos. Los datos del modelo son flexibles, por lo que puedes adaptarlo para detectar diversos riesgos de fraude, como las reseñas falsas, el abuso de promociones y el fraude al pagar como huésped.

El modelo Online Fraud Insights utiliza un conjunto de algoritmos de aprendizaje automático para el enriquecimiento de los datos, la transformación y la clasificación del fraude. Como parte del proceso de formación del modelo, Online Fraud Insights enriquece los elementos de datos sin procesar, como la dirección IP y el número BIN, con datos de terceros, como la geolocalización de la dirección IP o el banco emisor de una tarjeta de crédito. Además de los datos de terceros, Online Fraud Insights utiliza algoritmos de aprendizaje profundo que tienen en cuenta los patrones de fraude que se han observado en Amazon y AWS. Estos patrones de fraude se convierten en elementos de entrada para su modelo mediante un algoritmo de aumento del árbol de gradientes.

Para aumentar el rendimiento, Online Fraud Insights optimiza los hiperparámetros del algoritmo de mejora del árbol de gradientes mediante un proceso de optimización bayesiano. Entrena secuencialmente docenas de modelos diferentes con diferentes parámetros del modelo (como el número de árboles, la profundidad de los árboles y el número de muestras por hoja). También utiliza diferentes estrategias de optimización, como aumentar la ponderación de la población minoritaria dedicada al fraude para hacer frente a unos índices de fraude muy bajos.

Selección de la fuente de datos

Al entrenar un modelo de Online Fraud Insights, puede elegir entrenar el modelo con datos de eventos que se almacenan externamente (fuera de Amazon Fraud Detector) o almacenados dentro de Amazon Fraud Detector. El almacenamiento externo que Amazon Fraud Detector admite actualmente es Amazon Simple Storage Service (Amazon S3). Si utiliza almacenamiento externo, su conjunto de datos de eventos debe cargarse en formato de valores separados por comas (CSV) en un bucket de Amazon S3. En la configuración de entrenamiento del modelo, estas opciones de almacenamiento de datos se denominan EXTERNAL_EVENTS (para almacenamiento externo) e INGESTED_EVENTS (para almacenamiento interno). Para obtener más información sobre las fuentes de datos disponibles y cómo almacenar datos en ellas, consulte. Almacenamiento de datos de eventos

Preparación de datos

Independientemente de dónde elija almacenar los datos de sus eventos (Amazon S3 o Amazon Fraud Detector), los requisitos para el tipo de modelo Online Fraud Insights son los mismos.

Su conjunto de datos debe contener el encabezado de la columna EVENT_LABEL. Esta variable clasifica un evento como fraudulento o legítimo. Cuando utilices un archivo CSV (almacenamiento externo), debes incluir EVENT_LABEL para cada evento del archivo. Para el almacenamiento interno, el campo EVENT_LABEL es opcional, pero todos los eventos deben estar etiquetados para poder incluirlos en un conjunto de datos de entrenamiento. Al configurar tu modelo de entrenamiento, puedes elegir si deseas ignorar los eventos sin etiquetar, usar una etiqueta legítima para los eventos sin etiquetar o asumir una etiqueta fraudulenta para todos los eventos sin etiquetar.

Selección de datos

Consulte Recopilar datos de eventos para obtener información sobre cómo seleccionar datos para capacitar su modelo Online Fraud Insights.

El proceso de formación en línea sobre Fraud Insights toma muestras y divide los datos históricos en función de EVENT_TIMESTAMP. No es necesario muestrear los datos manualmente y hacerlo podría afectar negativamente a los resultados del modelo.

Variables de evento

El modelo Online Fraud Insights requiere al menos dos variables, además de los metadatos de eventos necesarios, que hayan pasado la validación de datos para el entrenamiento del modelo y admite hasta 100 variables por modelo. Por lo general, cuantas más variables proporcione, mejor podrá diferenciar el modelo entre fraude y eventos legítimos. Si bien el modelo Online Fraud Insights admite docenas de variables, incluidas variables personalizadas, recomendamos incluir la dirección IP y la dirección de correo electrónico, ya que estas variables suelen ser más eficaces para identificar a la entidad que se está evaluando.

Validación de los datos

Como parte del proceso de formación, Online Fraud Insights validará el conjunto de datos para detectar problemas de calidad de los datos que puedan afectar a la formación del modelo. Tras validar los datos, Amazon Fraud Detector tomará las medidas adecuadas para crear el mejor modelo posible. Esto incluye emitir advertencias sobre posibles problemas de calidad de los datos, eliminar automáticamente las variables que tengan problemas con la calidad de los datos o emitir un error y detener el proceso de formación del modelo. Para obtener más información, consulte la validación del conjunto de datos.