Diferencia en las proporciones de las etiquetas (DPL) - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Diferencia en las proporciones de las etiquetas (DPL)

La diferencia en las proporciones de las etiquetas (DPL) compara la proporción de resultados observados con etiquetas positivas para la faceta d con la proporción de resultados observados con etiquetas positivas para la faceta a en un conjunto de datos de entrenamiento. Por ejemplo, podría usarse para comparar la proporción de personas de mediana edad (faceta a) y de otros grupos de edad (faceta d) a las que se aprueban préstamos financieros. Los modelos de machine learning intentan imitar las decisiones de los datos de entrenamiento lo más fielmente posible. Por lo tanto, es probable que un modelo de machine learning entrenado en un conjunto de datos con un DPL alto refleje el mismo desequilibrio en sus predicciones futuras.

La fórmula para la diferencia en las proporciones de las etiquetas es la siguiente:

        DPL = (qa - qd)

Donde:

  • qa = na(1)/na es la proporción de facetas a que tienen un valor de etiqueta observada de 1. Por ejemplo, la proporción de personas de mediana edad a las que se aprueban préstamos. Aquí na(1) representa el número de miembros de la faceta a que obtienen un resultado positivo y na es el número de miembros de la faceta a.

  • qd = nd(1)/nd es la proporción de facetas d que tienen un valor de etiqueta observada de 1. Por ejemplo, la proporción de personas fuera del grupo demográfico de mediana edad a las que se aprueban préstamos. Aquí nd(1) representa el número de miembros de la faceta d que obtienen un resultado positivo y nd es el número de miembros de la faceta d.

Si la DPL está lo suficientemente cerca de 0, decimos que se ha alcanzado la paridad demográfica.

En el caso de las etiquetas de facetas binarias y multicategoría, el rango de valores DPL oscila a lo largo del intervalo (-1, 1). En el caso de las etiquetas continuas, se establece un umbral para reducir las etiquetas a binarias.

  • Los valores de la DPL positivos indican que la faceta a tiene una mayor proporción de resultados positivos en comparación con la faceta d.

  • Los valores de la DPL cercanos a cero indican una proporción más equitativa de resultados positivos entre las facetas y un valor de cero indica una paridad demográfica perfecta.

  • Los valores de la DPL negativos indican que la faceta d tiene una mayor proporción de resultados positivos en comparación con la faceta a.

Que una magnitud alta de la DPL sea problemática o no varía de una situación a otra. En un caso problemático, una DPL de gran magnitud podría ser una señal de problemas subyacentes en los datos. Por ejemplo, un conjunto de datos con una DPL alta podría reflejar sesgos históricos o prejuicios contra grupos demográficos basados en la edad que no sería deseable que un modelo aprendiera.