Datos posteriores al entrenamiento y métricas de sesgo del modelo - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Datos posteriores al entrenamiento y métricas de sesgo del modelo

Amazon SageMaker Clarify proporciona once datos posteriores a la capacitación y modela métricas de sesgo para ayudar a cuantificar varios conceptos de equidad. No es posible satisfacer todos estos conceptos a la vez y la selección depende de las características específicas de los casos que se analicen que impliquen un posible sesgo. La mayoría de estas métricas son una combinación de los números extraídos de las matrices de confusión de clasificaciones binarias para los diferentes grupos demográficos. Dado que la equidad y el sesgo pueden definirse mediante una amplia gama de métricas, se requiere el juicio humano para comprender y elegir qué métricas son pertinentes para cada caso de uso individual, y los clientes deben consultar con las partes interesadas correspondientes para determinar la medida de equidad adecuada para su aplicación.

Usamos la siguiente notación para analizar las métricas de sesgo. El modelo conceptual que se describe aquí es para la clasificación binaria, donde los eventos se etiquetan como si tuvieran solo dos resultados posibles en su espacio muestral, denominados positivos (con un valor 1) y negativos (con un valor 0). Por lo general, este marco se puede extender a la clasificación multicategoría de forma sencilla o a casos que implican resultados valorados de forma continua, cuando es necesario. En el caso de la clasificación binaria, se asignan etiquetas positivas y negativas a los resultados registrados en un conjunto de datos sin procesar para una faceta favorecida a y para una faceta desfavorecida d. Estas etiquetas y se denominan etiquetas observadas para distinguirlas de las etiquetas predichas y' que asignan un modelo de machine learning durante las etapas de entrenamiento o inferencia del ciclo de vida de ML. Estas etiquetas se utilizan para definir las distribuciones de probabilidad Pa(y) y Pd(y) para sus respectivos resultados de faceta.

  • etiquetas:

    • y representa las n etiquetas observadas para los resultados de los eventos en un conjunto de datos de entrenamiento.

    • y' representa las etiquetas predichas para las n etiquetas observadas en el conjunto de datos por un modelo entrenado.

  • resultados:

    • Un resultado positivo (con un valor de 1) para una muestra, como la aceptación de una solicitud.

      • n(1) es el número de etiquetas observadas para los resultados positivos (aceptaciones).

      • n'(1) es el número de etiquetas predichas para los resultados positivos (aceptaciones).

    • Un resultado negativo (con un valor de 0) para una muestra, como el rechazo de una solicitud.

      • n(0) es el número de etiquetas observadas para los resultados negativos (rechazos).

      • n'(0) es el número de etiquetas predichas para los resultados negativos (rechazos).

  • valores de faceta:

    • faceta a: el valor de la característica que define un grupo demográfico al que favorece el sesgo.

      • na es el número de etiquetas observadas para el valor de faceta favorecida: na = na(1) + na(0) la suma de las etiquetas observadas positivas y negativas para el valor de faceta a.

      • n'a es el número de etiquetas predichas para el valor de faceta favorecida: n'a = n'a(1) + n'a(0) la suma de las etiquetas de resultados predichos positivos y negativos para el valor de faceta a. Observe que n'a = na.

    • faceta d: el valor de la característica que define un grupo demográfico al que desfavorece el sesgo.

      • nd es el número de etiquetas observadas para el valor de faceta desfavorecida: nd = nd(1) + nd(0) la suma de las etiquetas observadas positivas y negativas para el valor de faceta d.

      • n'd es el número de etiquetas predichas para el valor de faceta desfavorecida: n'd = n'd(1) + n'd(0) la suma de las etiquetas de resultados predichos positivos y negativos para el valor de faceta d. Observe que n'd = nd.

  • distribuciones de probabilidad para los resultados de los datos de facetas etiquetadas:

    • Pa(y) es la distribución de probabilidad de las etiquetas observadas para la faceta a. En el caso de los datos con etiquetas binarias, esta distribución viene dada por la relación entre el número de muestras de la faceta a etiquetadas con resultados positivos y el número total, Pa(y1) = na(1)/ na, y la relación entre el número de muestras con resultados negativos y el número total, Pa(y0) = na(0)/ na.

    • Pd(y) es la distribución de probabilidad de las etiquetas observadas para la faceta d. En el caso de los datos con etiquetas binarias, esta distribución viene dada por la relación entre el número de muestras de la faceta d etiquetadas con resultados positivos y el número total, Pd(y1) = nd(1)/ nd, y la relación entre el número de muestras con resultados negativos y el número total, Pd(y0) = nd(0)/ nd.

La siguiente tabla contiene una hoja de referencia para obtener una guía rápida y enlaces a las métricas de sesgo posteriores al entrenamiento.

Métricas de sesgo posteriores al entrenamiento

Métrica de sesgo posterior al entrenamiento Descripción Pregunta de ejemplo Interpretación de los valores de la métrica
Diferencia en las proporciones positivas en las etiquetas pronosticadas () DPPL Mide la diferencia en la proporción de predicciones positivas entre la faceta favorecida a y la faceta desfavorecida d.

¿Ha habido un desequilibrio entre los grupos demográficos en los resultados positivos predichos que pueda indicar un sesgo?

Rango para etiquetas de facetas binarias y multicategoría normalizadas: [-1,+1]

Rango para etiquetas continuas: (-∞, +∞)

Interpretación:

  • Los valores positivos indican que la faceta favorecida a tiene una mayor proporción de resultados positivos predichos.

  • Los valores cercanos a cero indican una proporción más equitativa de resultados positivos predichos entre las facetas.

  • Los valores negativos indican que la faceta desfavorecida d tiene una mayor proporción de resultados positivos predichos.

Impacto dispar (DI) Mide la relación de proporciones de las etiquetas predichas para la faceta favorecida a y la faceta desfavorecida d. ¿Ha habido un desequilibrio entre los grupos demográficos en los resultados positivos predichos que pueda indicar un sesgo?

Rango para etiquetas de facetas multicategoría, binarias normalizadas y continuas: [0,∞)

Interpretación:

  • Los valores inferiores a 1 indican que la faceta favorecida a tiene una mayor proporción de resultados positivos predichos.

  • Un valor de 1 indica que tenemos paridad demográfica.

  • Los valores superiores a 1 indican que la faceta desfavorecida d tiene una mayor proporción de resultados positivos predichos.

Disparidad demográfica condicional en las etiquetas previstas () CDDPL Mide la disparidad de etiquetas predichas entre las facetas en su conjunto, pero también por subgrupos. ¿Tienen algunos grupos demográficos una mayor proporción de rechazos en las solicitudes de préstamo que de aceptaciones?

El rango de CDDPL valores para los resultados binarios, multicategoriales y continuos: [-1, +1]

  • Los valores positivos indican resultados en los que la faceta d se rechaza más que se acepta.

  • Cerca de cero indica que no hay disparidad demográfica en promedio.

  • Los valores negativos indican resultados en los que la faceta a se rechaza más que se acepta.

Prueba de contrafácticos (FT) Examina cada miembro de la faceta d y evalúa si los miembros similares de la faceta a tienen predicciones de modelo diferentes. ¿Hay un grupo demográfico de una edad específica que coincida estrechamente en todas las características con un grupo de edad diferente y, sin embargo, se le paga más en promedio? El rango para etiquetas de facetas binarias y multicategoría es [-1, +1].
  • Los valores positivos se producen cuando el número de decisiones contrafácticas desfavorables para la faceta desfavorecida d supera a las favorables.

  • Los valores cercanos a cero se producen cuando se equilibra el número de decisiones contrafácticas desfavorables y favorables.

  • Los valores negativos se producen cuando el número de decisiones contrafácticas desfavorables para la faceta desfavorecida d es inferior a las favorables.

Diferencia de precisión (AD) Mide la diferencia entre la precisión de la predicción de las facetas favorecidas y desfavorecidas. ¿Predice el modelo las etiquetas con la misma precisión para las solicitudes en todos los grupos demográficos? El rango para etiquetas de facetas binarias y multicategoría es [-1, +1].
  • Los valores positivos indican que la faceta d sufre más de alguna combinación de falsos positivos (errores de tipo I) o falsos negativos (errores de tipo II). Esto significa que existe un posible sesgo en contra de la faceta desfavorecida d.

  • Los valores cercanos a cero se producen cuando la precisión de la predicción de la faceta a es similar a la de la faceta d

  • Los valores negativos indican que la faceta a sufre más de alguna combinación de falsos positivos (errores de tipo I) o falsos negativos (errores de tipo II). Esto significa que existe un posible sesgo en contra de la faceta favorecida a.

Diferencia de coincidencias (RD) Compara las recuperaciones del modelo para las facetas favorecidas y desfavorecidas. ¿Existe un sesgo basado en la edad en los préstamos debido a que un modelo tiene una mayor capacidad de recuperación para un grupo de edad en comparación con otro?

Rango para la clasificación binaria y multicategórica: [-1, +1].

  • Los valores positivos sugieren que el modelo detecta más verdaderos positivos para la faceta a y está sesgado en contra de la faceta desfavorecida d.

  • Los valores cercanos a cero sugieren que el modelo detecta aproximadamente el mismo número de positivos verdaderos en ambas facetas y no está sesgado.

  • Los valores negativos sugieren que el modelo detecta más verdaderos positivos para la faceta d y está sesgado en contra de la faceta favorecida a.

Diferencia en la aceptación condicional () DCAcc Compara las etiquetas observadas con las predichas por un modelo. Evalúa si es igual en todas las facetas de los resultados positivos predichos (aceptaciones). Al comparar un grupo de edad con otro, ¿se aceptan préstamos con más frecuencia o con menos frecuencia de lo previsto (en función de las cualificaciones)?

Rango para etiquetas de facetas multicategoría, binarias y continuas: (-∞, +∞).

  • Los valores positivos indican un posible sesgo en contra de los candidatos cualificados de la faceta desfavorecida d.

  • Los valores cercanos a cero indican que los solicitantes cualificados de ambas facetas se aceptan de manera similar.

  • Los valores negativos indican un posible sesgo en contra de los candidatos cualificados de la faceta favorecida a.

Diferencia en las tasas de aceptación () DAR Mide la diferencia en las relaciones entre los resultados positivos observados (TP) y los positivos predichos (TP + FP) entre las facetas favorecidas y desfavorecidas. ¿Tiene el modelo la misma precisión a la hora de predecir las aceptaciones de préstamos para solicitantes cualificados de todos los grupos de edad? El rango para etiquetas de facetas multicategoría, binarias y continuas es [-1, +1].
  • Los valores positivos indican un posible sesgo en contra de la faceta d debido a la ocurrencia de un número relativamente mayor de falsos positivos en la faceta desfavorecida d.

  • Los valores cercanos a cero indican que el modelo predice las etiquetas observadas para los resultados positivos (aceptaciones) con la misma precisión para ambas facetas.

  • Los valores negativos indican un posible sesgo en contra de la faceta a debido a la ocurrencia de un número relativamente mayor de falsos positivos en la faceta favorecida a.

Diferencia de especificidad (SD) Compara la especificidad del modelo para las facetas favorecidas y desfavorecidas. ¿Existe un sesgo basado en la edad en los préstamos porque el modelo predice una mayor especificidad para un grupo de edad en comparación con otro?

Rango para la clasificación binaria y multicategórica: [-1, +1].

  • Los valores positivos sugieren que el modelo detecta más falsos positivos para la faceta d y está sesgado en contra de la faceta desfavorecida d.

  • Los valores cercanos a cero sugieren que el modelo detecta un número similar de falsos positivos en ambas facetas y no está sesgado.

  • Los valores negativos sugieren que el modelo detecta más falsos positivos para la faceta a y está sesgado en contra de la faceta favorecida a.

Diferencia en el rechazo condicional () DCR Compara las etiquetas observadas con las predichas por un modelo y evalúa si esto es los mismo en todas las facetas para los resultados negativos (rechazos). ¿Se rechazan más o menos solicitudes de préstamos de lo previsto para un grupo de edad en comparación con otro en función de las cualificaciones? Rango para etiquetas de facetas multicategoría, binarias y continuas: (-∞, +∞).
  • Los valores positivos indican un posible sesgo en contra de los candidatos cualificados de la faceta desfavorecida d.

  • Los valores cercanos a cero indican que los solicitantes cualificados de ambas facetas se rechazan de manera similar.

  • Los valores negativos indican un posible sesgo en contra de los candidatos cualificados de la faceta favorecida a.

Diferencia en las tasas de rechazo () DRR Mide la diferencia en las relaciones entre los resultados negativos observados (TN) y los negativos predichos (TN + FN) entre las facetas desfavorecidas y favorecidas. ¿Tiene el modelo la misma precisión a la hora de predecir los rechazos de préstamos para solicitantes no cualificados de todos los grupos de edad? El rango para etiquetas de facetas multicategoría, binarias y continuas es [-1, +1].
  • Los valores negativos indican un posible sesgo debido a la ocurrencia de un número relativamente mayor de falsos negativos en la faceta favorecida a.

  • Los valores cercanos a cero indican que los resultados negativos (rechazos) se predicen con la misma precisión para ambas facetas.

  • Los valores negativos indican un posible sesgo debido a la ocurrencia de un número relativamente mayor de falsos negativos en la faceta desfavorecida d.

Igualdad de tratamiento (TE) Mide la diferencia en la proporción de falsos positivos y falsos negativos entre las facetas favorecidas y desfavorecidas. En las solicitudes de préstamos, ¿la proporción relativa entre falsos positivos y falsos negativos es la misma en todos los grupos demográficos de edad? Rango para etiquetas de facetas binarias y multicategoría: (-∞, +∞).
  • Los valores positivos se producen cuando la relación entre falsos positivos y falsos negativos de la faceta a es mayor que la de la faceta d.

  • Los valores cercanos a cero se producen cuando la relación entre falsos positivos y falsos negativos de la faceta a es similar a la de la faceta d.

  • Los valores negativos se producen cuando la relación entre falsos positivos y falsos negativos de la faceta a es menor que la de la faceta d.

Entropía generalizada (GE) Mide la desigualdad en los beneficios b asignados a cada entrada por las predicciones del modelo. De los dos modelos candidatos para la clasificación de las solicitudes de préstamos, ¿conduce uno a una distribución más desigual de los resultados deseados que el otro? Rango para etiquetas binarias y multicategoría: (0, 0,5). La GE no está definida cuando el modelo solo predice falsos negativos.
  • Los valores cero se producen cuando todas las predicciones son correctas o todas las predicciones son falsos positivos.

  • Los valores positivos indican desigualdad en las prestaciones; 0,5 corresponde a la mayor desigualdad.

Para obtener información adicional sobre las métricas de sesgo, consulte A Family of Fairness Measures for Machine Learning in Finance.