Métricas de rendimiento del modelo - Amazon Fraud Detector

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Métricas de rendimiento del modelo

Una vez finalizada la formación del modelo, Amazon Fraud Detector valida el rendimiento del modelo utilizando el 15% de los datos que no se utilizaron para entrenar el modelo. Puede esperar que su modelo entrenado de Amazon Fraud Detector tenga un rendimiento de detección de fraudes en el mundo real similar al de las métricas de rendimiento de validación.

Como empresa, debes encontrar un equilibrio entre detectar más fraudes y provocar más problemas con los clientes legítimos. Para ayudarte a elegir el equilibrio adecuado, Amazon Fraud Detector proporciona las siguientes herramientas para evaluar el rendimiento del modelo:

  • Gráfico de distribución de puntuaciones: un histograma de las distribuciones de puntuaciones de un modelo supone un ejemplo de población de 100 000 eventos. El eje Y izquierdo representa los eventos legítimos y el eje Y derecho representa los eventos de fraude. Puede seleccionar un umbral de modelo específico haciendo clic en el área del gráfico. Esto actualizará las vistas correspondientes en la matriz de confusión y el gráfico ROC.

  • Matriz de confusión: resume la precisión del modelo para un umbral de puntuación determinado comparando las predicciones del modelo con los resultados reales. Amazon Fraud Detector supone un ejemplo de población de 100 000 eventos. La distribución del fraude y de los eventos legítimos simula la tasa de fraude en sus empresas.

    • Verdaderos aspectos positivos: el modelo predice el fraude y, en realidad, el hecho es un fraude.

    • Falsos positivos: el modelo predice el fraude, pero en realidad el hecho es legítimo.

    • Verdaderos negativos: el modelo predice que el evento es legítimo y, de hecho, lo es.

    • Falsos negativos: el modelo predice que el evento es legítimo, pero en realidad es un fraude.

    • Tasa de resultados positivos verdaderos (TPR): porcentaje del fraude total que detecta el modelo. También se conoce como tasa de captura.

    • Tasa de falsos positivos (FPR): porcentaje del total de eventos legítimos que se predicen incorrectamente como fraude.

  • Curva del operador del receptor (ROC): traza la tasa de positivos verdaderos en función de la tasa de falsos positivos en todos los umbrales de puntuación posibles del modelo. Para ver este gráfico, selecciona Métricas avanzadas.

  • Área bajo la curva (AUC): resume la TPR y la FPR en todos los umbrales de puntuación posibles del modelo. Un modelo sin poder predictivo tiene un AUC de 0,5, mientras que un modelo perfecto tiene una puntuación de 1,0.

  • Rango de incertidumbre: muestra el rango de AUC esperado del modelo. Un rango mayor (diferencia en el límite superior e inferior del AUC > 0,1) significa una mayor incertidumbre del modelo. Si el rango de incertidumbre es amplio (>0,1), considere la posibilidad de proporcionar más eventos etiquetados y volver a entrenar el modelo.

Para utilizar las métricas de rendimiento del modelo
  1. Comience con la tabla de distribución de puntuaciones para revisar la distribución de las puntuaciones modelo en relación con sus casos de fraude y eventos legítimos. Lo ideal es que haya una separación clara entre el fraude y los eventos legítimos. Esto indica que el modelo puede identificar con precisión qué eventos son fraudulentos y cuáles son legítimos. Seleccione un umbral del modelo haciendo clic en el área del gráfico. Puede ver cómo el ajuste del umbral de puntuación del modelo afecta a sus tasas de positivos verdaderos y falsos positivos.

    nota

    El gráfico de distribución de puntuaciones muestra el fraude y los eventos legítimos en dos ejes Y diferentes. El eje Y izquierdo representa los eventos legítimos y el eje Y derecho representa los eventos de fraude.

  2. Revise la matriz de confusión. Según el umbral de puntuación del modelo seleccionado, puede ver el impacto simulado en función de una muestra de 100 000 eventos. La distribución del fraude y de los eventos legítimos simula la tasa de fraude en sus empresas. Utilice esta información para encontrar el equilibrio adecuado entre la tasa de positivos verdaderos y la tasa de falsos positivos.

  3. Para obtener más información, selecciona Métricas avanzadas. Utilice la gráfica ROC para comprender la relación entre la tasa de positivos verdaderos y la tasa de falsos positivos para cualquier umbral de puntuación del modelo. La curva ROC puede ayudarlo a ajustar la compensación entre la tasa de positivos verdaderos y la tasa de falsos positivos.

    nota

    También puede revisar las métricas en forma de tabla seleccionando Tabla.

    La vista de tabla también muestra la precisión métrica. La precisión es el porcentaje de eventos de fraude predichos correctamente como fraudulentos en comparación con todos los eventos pronosticados como fraudulentos.

  4. Utilice las métricas de rendimiento para determinar los umbrales de modelo óptimos para sus empresas en función de sus objetivos y del caso de uso de la detección del fraude. Por ejemplo, si piensa utilizar el modelo para clasificar los registros de nuevas cuentas como de riesgo alto, medio o bajo, necesitará identificar dos umbrales para poder redactar las tres condiciones reglamentarias siguientes:

    • Las puntuaciones > X representan un riesgo alto

    • Las puntuaciones < X but > Y son de riesgo medio

    • Las puntuaciones < Y son de bajo riesgo