Solucionar problemas - Amazon Fraud Detector

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solucionar problemas

Las siguientes secciones le ayudan a solucionar problemas que puedan surgir al trabajar con Amazon Fraud Detector.

Solucione problemas con los datos de formación

Utilice la información de esta sección para diagnosticar y resolver los problemas que puedan aparecer en el panel de diagnóstico de formación de modelos de la consola de Amazon Fraud Detector cuando entrene a su modelo.

Los problemas que se muestran en el panel de diagnóstico del entrenamiento de modelos se clasifican de la siguiente manera. El requisito de abordar el problema depende de la categoría del problema.

  • Error icon Error: hace que el entrenamiento del modelo falle. Estos problemas deben abordarse para que el modelo se entrene correctamente.

  • Warning icon Advertencia: hace que el entrenamiento del modelo continúe; sin embargo, es posible que algunas de las variables se estén excluyendo del proceso de capacitación. Consulta las directrices pertinentes en esta sección para mejorar la calidad de tu conjunto de datos.

  • Information icon Información (información): no afecta al entrenamiento del modelo y todas las variables se utilizan para el entrenamiento. Le recomendamos que consulte las directrices pertinentes de esta sección para mejorar aún más la calidad del conjunto de datos y el rendimiento del modelo.

Tasa de fraude inestable en el conjunto de datos dado

Tipo de problema: error

Descripción

La tasa de fraude en los datos proporcionados es demasiado inestable a lo largo del tiempo. Asegúrese de que su fraude y sus eventos legítimos se muestreen de manera uniforme a lo largo del tiempo.

Causa

Este error se produce si los eventos fraudulentos y legítimos de tu conjunto de datos se distribuyen de forma desigual y se toman en diferentes franjas horarias. El proceso de entrenamiento de Amazon Fraud Detector modela y divide su conjunto de datos en función de EVENT_TIMESTAMP. Por ejemplo, si su conjunto de datos consta de eventos de fraude extraídos de los últimos 6 meses, pero solo se incluye el último mes de eventos legítimos, el conjunto de datos se considera inestable. Un conjunto de datos inestable puede provocar sesgos en la evaluación del rendimiento del modelo.

Solución

Asegúrese de proporcionar los datos de los eventos fraudulentos y legítimos de la misma franja horaria para que la tasa de fraude no cambie drásticamente con el tiempo.

Datos insuficientes

  1. Tipo de problema: error

    Descripción

    Menos de 50 filas están etiquetadas como eventos fraudulentos. Asegúrese de que tanto los eventos fraudulentos como los legítimos superen el recuento mínimo de 50 y vuelva a entrenar el modelo.

    Causa

    Este error se produce si el conjunto de datos tiene menos eventos etiquetados como fraudulentos de los necesarios para el entrenamiento del modelo. Amazon Fraud Detector requiere al menos 50 eventos fraudulentos para entrenar a tu modelo.

    Solución

    Asegúrese de que su conjunto de datos incluya un mínimo de 50 eventos fraudulentos. Puedes garantizar esto cubriendo un período de tiempo más largo, si es necesario.

  2. Tipo de problema: error

    Descripción

    Menos de 50 filas están etiquetadas como eventos legítimos. Asegúrese de que tanto los eventos fraudulentos como los legítimos superen el recuento mínimo de $threshold y vuelva a entrenar el modelo.

    Causa

    Este error se produce si el conjunto de datos tiene menos eventos etiquetados como legítimos que los necesarios para el entrenamiento del modelo. Amazon Fraud Detector requiere al menos 50 eventos legítimos para entrenar a tu modelo.

    Solución

    Asegúrese de que su conjunto de datos incluya un mínimo de 50 eventos legítimos. Puedes garantizar esto cubriendo un período de tiempo más largo, si es necesario.

  3. Tipo de problema: error

    Descripción

    El número de entidades únicas asociadas al fraude es inferior a 100. Considere incluir más ejemplos de entidades fraudulentas para mejorar el rendimiento.

    Causa

    Este error se produce si el conjunto de datos tiene menos entidades con eventos fraudulentos de las necesarias para el entrenamiento del modelo. El modelo Transaction Fraud Insights (TFI) requiere al menos 100 entidades con casos de fraude para garantizar la máxima cobertura del ámbito del fraude. Es posible que el modelo no se generalice bien si todos los actos de fraude los lleva a cabo un pequeño grupo de entidades.

    Solución

    Asegúrese de que su conjunto de datos incluya al menos 100 entidades con eventos fraudulentos. Puedes asegurarte de que abarque un período de tiempo más largo, si es necesario.

  4. Tipo de problema: error

    Descripción

    El número de entidades únicas asociadas a lo legítimo es inferior a 100. Considere incluir más ejemplos de entidades legítimas para mejorar el rendimiento.

    Causa

    Este error se produce si el conjunto de datos tiene menos entidades con eventos legítimos que las necesarias para el entrenamiento del modelo. El modelo Transaction Fraud Insights (TFI) requiere al menos 100 entidades con eventos legítimos para garantizar la máxima cobertura del ámbito del fraude. Es posible que el modelo no se generalice bien si todos los eventos legítimos los lleva a cabo un pequeño grupo de entidades.

    Solución

    Asegúrese de que su conjunto de datos incluya al menos 100 entidades con eventos legítimos. Si es necesario, puedes asegurarte de que abarque un período de tiempo más largo.

  5. Tipo de problema: error

    Descripción

    Hay menos de 100 filas en el conjunto de datos. Asegúrese de que haya más de 100 filas en el conjunto de datos total y de que al menos 50 filas estén etiquetadas como fraudulentas.

    Causa

    Este error se produce si el conjunto de datos contiene menos de 100 registros. Amazon Fraud Detector requiere datos de al menos 100 eventos (registros) de su conjunto de datos para el entrenamiento de modelos.

    Solución

    Asegúrese de tener datos de más de 100 eventos en su conjunto de datos.

Faltan valores de EVENT_LABEL o son diferentes

  1. Tipo de problema: error

    Descripción

    Más del 1% de la columna EVENT_LABEL es nula o son valores distintos de los definidos en la configuración del modelo. $label_values Asegúrese de que falte menos del 1% de los valores en la columna EVENT_LABEL y que los valores sean los definidos en la configuración del modelo. $label_values

    Causa

    Este error se produce por uno de los siguientes motivos:

    • A más del 1% de los registros del archivo CSV que contiene tus datos de entrenamiento les faltan valores en la columna EVENT_LABEL.

    • Más del 1% de los registros del archivo CSV que contiene tus datos de entrenamiento tienen valores en la columna EVENT_LABEL que son diferentes de los asociados a tu tipo de evento.

    El modelo Online Fraud Insights (OFI) requiere que la columna EVENT_LABEL de cada registro se rellene con una de las etiquetas asociadas al tipo de evento (o mapeadas). CreateModelVersion

    Solución

    Si este error se debe a que faltan los valores de EVENT_LABEL, considere la posibilidad de asignar las etiquetas adecuadas a esos registros o eliminarlos del conjunto de datos. Si este error se debe a que las etiquetas de algunos registros no están entre ellaslabel_values, asegúrese de añadir todos los valores de la columna EVENT_LABEL a las etiquetas del tipo de evento y asignarlas como fraudulentas o legítimas (fraudulentas, legítimas) en la creación del modelo.

  2. Tipo de problema: información

    Descripción

    La columna EVENT_LABEL contiene valores nulos o valores de etiqueta distintos de los definidos en la configuración del modelo. $label_values Estos valores incoherentes se convirtieron en valores «no fraudulentos» antes del entrenamiento.

    Causa

    Esta información se obtiene por uno de los siguientes motivos:

    • Faltan valores en la columna EVENT_LABEL en menos del 1% de los registros del archivo CSV que contiene tus datos de entrenamiento

    • Menos del 1% de los registros del archivo CSV que contiene tus datos de entrenamiento tienen valores en la columna EVENT_LABEL diferentes a los asociados a tu tipo de evento.

    El modelo de entrenamiento en ambos casos tendrá éxito. Sin embargo, los valores de etiqueta de los eventos a los que les faltan valores de etiqueta o no están mapeados se convierten en legítimos. Si considera que se trata de un problema, siga la solución que se proporciona a continuación.

    Solución

    Si faltan valores de EVENT_LABEL en su conjunto de datos, considere eliminar esos registros de su conjunto de datos. Si los valores proporcionados para esos EVENT_LABELS no están mapeados, asegúrate de que todos esos valores estén mapeados como fraudulentos o legítimos (fraudulentos, legítimos) para cada evento.

Faltan valores de EVENT_TIMESTAMP o son incorrectos

  1. Tipo de problema: error

    Descripción

    Tu conjunto de datos de entrenamiento contiene EVENT_TIMESTAMP con marcas de tiempo que no se ajustan a los formatos aceptados. Asegúrese de que el formato sea uno de los formatos de fecha y hora aceptados.

    Causa

    Este error se produce si la columna EVENT_TIMESTAMP contiene un valor que no cumple con los formatos de marca de tiempo admitidos por Amazon Fraud Detector.

    Solución

    Asegúrese de que los valores proporcionados para la columna EVENT_TIMESTAMP cumplan con los formatos de marca de tiempo admitidos. Si faltan valores en la columna EVENT_TIMESTAMP, puede rellenarlos con valores utilizando el formato de marca de tiempo compatible o considerar la posibilidad de eliminar el evento por completo en lugar de introducir cadenas como, o. none null missing

  2. Tipo de problema: error

    Tu conjunto de datos de entrenamiento contiene EVENT_TIMESTAMP y faltan valores. Asegúrate de que no falte ningún valor.

    Causa

    Este error se produce si faltan valores en la columna EVENT_TIMESTAMP del conjunto de datos. Amazon Fraud Detector requiere que la columna EVENT_TIMESTAMP del conjunto de datos tenga valores.

    Solución

    Asegúrese de que la columna EVENT_TIMESTAMP de su conjunto de datos tenga valores y que dichos valores cumplan con los formatos de marca de tiempo admitidos. Si faltan valores en la columna EVENT_TIMESTAMP, puede rellenarlos con valores utilizando el formato de marca de tiempo compatible o considerar la posibilidad de eliminar el evento por completo en lugar de introducir cadenas como, o. none null missing

Datos no ingeridos

Tipo de problema: error

Descripción

No se han encontrado eventos ingeridos para la formación. Compruebe la configuración de la formación.

Causa

Este error se produce si estás creando un modelo con datos de eventos almacenados en Amazon Fraud Detector pero no has importado tu conjunto de datos a Amazon Fraud Detector antes de empezar a entrenar tu modelo.

Solución

Utilice la operación de SendEvent API, la operación de CreateBatchImportJob API o la función de importación por lotes de la consola de Amazon Fraud Detector para importar primero los datos de sus eventos y, a continuación, entrenar su modelo. Consulte Conjuntos de datos de eventos almacenados para obtener más información.

nota

Se recomienda esperar 10 minutos después de haber terminado de importar los datos antes de usarlos para entrenar el modelo.

Puedes usar la consola Amazon Fraud Detector para comprobar el número de eventos ya almacenados para cada tipo de evento. Consulte Visualización de las métricas de los eventos almacenados para obtener más información.

Variables insuficientes

Tipo de problema: Error

Descripción

El conjunto de datos debe contener al menos 2 variables adecuadas para el entrenamiento.

Causa

Este error se produce si el conjunto de datos contiene menos de 2 variables adecuadas para el entrenamiento del modelo. Amazon Fraud Detector considera que una variable es adecuada para el entrenamiento de modelos solo si supera todas las validaciones. Si una variable no pasa la validación, se excluye del entrenamiento del modelo y verá un mensaje en el diagnóstico del entrenamiento del modelo.

Solución

Asegúrese de que su conjunto de datos tenga al menos dos variables rellenadas con valores y de que haya superado todas las validaciones de datos. Ten en cuenta que la fila de metadatos del evento en la que has proporcionado los encabezados de las columnas (EVENT_TIMESTAMP, EVENT_ID, ENTITY_ID, EVENT_LABEL, etc.) no se considera variable.

Falta el tipo de variable o es incorrecto

Tipo de problema: Advertencia

Descripción

El tipo de datos esperado $variable_name es NUMÉRICO. Revise y actualice $variable_name su conjunto de datos y vuelva a entrenar el modelo.

Causa

Recibirás esta advertencia si una variable está definida como una variable NUMÉRICA, pero en el conjunto de datos tiene valores que no se pueden convertir a NUMÉRICOS. Como resultado, esa variable se excluye del entrenamiento del modelo.

Solución

Si desea mantenerla como una variable NUMÉRICA, asegúrese de que los valores que proporcione se puedan convertir en números flotantes. Tenga en cuenta que si la variable contiene valores faltantes, no los llene con cadenas como nonenenull, omissing. Si la variable contiene valores no numéricos, vuelva a crearla como una variable del tipo CATEGORICAL o FREE_FORM_TEXT.

Faltan valores de variables

Tipo de problema: Advertencia

Descripción

Faltan $threshold valores superiores a los $variable_name de en tu conjunto de datos de entrenamiento. Considera la posibilidad de modificar $variable_name tu conjunto de datos y volver a entrenarlo para mejorar el rendimiento.

Causa

Recibirás esta advertencia si la variable especificada se descarta porque faltan demasiados valores. Amazon Fraud Detector permite que falten valores en una variable. Sin embargo, si una variable tiene demasiados valores faltantes, no contribuye mucho al modelo y esa variable se descarta durante el entrenamiento del modelo.

Solución

En primer lugar, compruebe que esos valores faltantes no se deban a errores en la recopilación y preparación de los datos. Si se trata de errores, puedes considerar eliminarlos de tu entrenamiento de modelo. Sin embargo, si cree que esos valores faltantes son valiosos y aun así quiere conservar esa variable, puede rellenar manualmente los valores faltantes con una constante tanto en el entrenamiento del modelo como en la inferencia en tiempo real.

Valores de variables únicas insuficientes

Tipo de problema: Advertencia

Descripción

El recuento de valores únicos de $variable_name es inferior a 100. Revise y actualice $variable_name su conjunto de datos y vuelva a entrenar el modelo.

Causa

Recibirá esta advertencia si el número de valores únicos de la variable especificada es inferior a 100. Los umbrales varían según el tipo de variable. Con muy pocos valores únicos, existe el riesgo de que el conjunto de datos no sea lo suficientemente general como para cubrir el espacio de entidades de esa variable. Como resultado, es posible que el modelo no generalice bien las predicciones en tiempo real.

Solución

En primer lugar, asegúrese de que la distribución variable sea representativa del tráfico empresarial real. Luego, puede adoptar variables más precisas con mayor cardinalidad, por ejemplo, utilizándolas en full_customer_name lugar de first_name y last_name por separado, o cambiar el tipo de variable a CATEGÓRICO, lo que permite una cardinalidad más baja.

Expresión de variable incorrecta

  1. Tipo de problema: Información

    Descripción

    Más del 50% de $email_variable_name los valores no coinciden con la expresión regular esperada http://emailregex.com. Considere la posibilidad de modificar $email_variable_name su conjunto de datos y volver a entrenarlo para mejorar el rendimiento.

    Causa

    Esta información se muestra si más del 50% de los registros de su conjunto de datos tienen valores de correo electrónico que no cumplen con una expresión de correo electrónico normal y, por lo tanto, no se validan.

    Solución

    Formatee los valores de las variables de correo electrónico para que se ajusten a la expresión regular. Si faltan valores de correo electrónico, se recomienda dejarlos vacíos en lugar de rellenarlos con cadenas como nonenull, omissing.

  2. Tipo de problema: Información

    Descripción

    Más del 50% de $IP_variable_name los valores no coinciden con la expresión regular de las direcciones IPv4 o IPv6 https://digitalfortress.tech/tricks/top-15 - /. commonly-used-regex Considere la posibilidad de modificar su conjunto $IP_variable_name de datos y volver a entrenarlo para mejorar el rendimiento.

    Causa

    Esta información se muestra si más del 50% de los registros de su conjunto de datos tienen valores de IP que no cumplen con una expresión de IP normal y, por lo tanto, no se validan.

    Solución

    Formatee los valores de IP para que se ajusten a la expresión regular. Si faltan valores de IP, se recomienda dejarlos vacíos en lugar de rellenarlos con cadenas como nonenull, omissing.

  3. Tipo de problema: Información

    Descripción

    Más del 50% de $phone_variable_name los valores no coinciden con la expresión regular básica del teléfono /$pattern/. Considere la posibilidad de modificar su conjunto $phone_variable_name de datos y volver a entrenarlo para mejorar el rendimiento.

    Causa

    Esta información se muestra si más del 50% de los registros de su conjunto de datos contienen números de teléfono que no cumplen con una expresión de número de teléfono normal y, por lo tanto, no se validan.

    Solución

    Formatee los números de teléfono para que se ajusten a la expresión regular. Si faltan números de teléfono, se recomienda dejarlos vacíos en lugar de rellenarlos con cadenas como nonenull, omissing.

Entidades únicas insuficientes

Tipo de problema: Información

Descripción

El número de entidades únicas es inferior a 1500. Considere incluir más datos para mejorar el rendimiento.

Causa

Esta información se muestra si el conjunto de datos tiene un número menor de entidades únicas que el número recomendado. El modelo Transaction Fraud Insights (TFI) utiliza conjuntos de series temporales y funciones de transacciones genéricas para ofrecer el mejor rendimiento. Si su conjunto de datos tiene muy pocas entidades únicas, es posible que la mayoría de los datos genéricos, como IP_ADDRESS o EMAIL_ADDRESS, no tengan valores únicos. Por lo tanto, también existe el riesgo de que este conjunto de datos no sea lo suficientemente general como para cubrir el espacio de entidades de esa variable. Como resultado, es posible que el modelo no se generalice bien en las transacciones de entidades nuevas y nuevas.

Solución

Incluya más entidades. Amplía el rango de tiempo de tus datos de entrenamiento, si es necesario.