Diferencia en las proporciones de las etiquetas (DPL)

La diferencia en las proporciones de las etiquetas (DPL) compara la proporción de resultados observados con etiquetas positivas para la faceta d con la proporción de resultados observados con etiquetas positivas para la faceta a en un conjunto de datos de entrenamiento. Por ejemplo, podría usarse para comparar la proporción de personas de mediana edad (faceta a) y de otros grupos de edad (faceta d) a las que se aprueban préstamos financieros. Los modelos de machine learning intentan imitar las decisiones de los datos de entrenamiento lo más fielmente posible. Por lo tanto, es probable que un modelo de machine learning entrenado en un conjunto de datos con un DPL alto refleje el mismo desequilibrio en sus predicciones futuras.

La fórmula para la diferencia en las proporciones de las etiquetas es la siguiente:

DPL = (q_a - q_d)

Donde:

q_a = n_a⁽¹⁾/n_a es la proporción de facetas a que tienen un valor de etiqueta observada de 1. Por ejemplo, la proporción de personas de mediana edad a las que se aprueban préstamos. Aquí n_a⁽¹⁾ representa el número de miembros de la faceta a que obtienen un resultado positivo y n_a es el número de miembros de la faceta a.
q_d = n_d⁽¹⁾/n_d es la proporción de facetas d que tienen un valor de etiqueta observada de 1. Por ejemplo, la proporción de personas fuera del grupo demográfico de mediana edad a las que se aprueban préstamos. Aquí n_d⁽¹⁾ representa el número de miembros de la faceta d que obtienen un resultado positivo y n_d es el número de miembros de la faceta d.

Si la DPL está lo suficientemente cerca de 0, decimos que se ha alcanzado la paridad demográfica.

En el caso de las etiquetas de facetas binarias y multicategoría, el rango de valores DPL oscila a lo largo del intervalo (-1, 1). En el caso de las etiquetas continuas, se establece un umbral para reducir las etiquetas a binarias.

Los valores de la DPL positivos indican que la faceta a tiene una mayor proporción de resultados positivos en comparación con la faceta d.
Los valores de la DPL cercanos a cero indican una proporción más equitativa de resultados positivos entre las facetas y un valor de cero indica una paridad demográfica perfecta.
Los valores de la DPL negativos indican que la faceta d tiene una mayor proporción de resultados positivos en comparación con la faceta a.

Que una magnitud alta de la DPL sea problemática o no varía de una situación a otra. En un caso problemático, una DPL de gran magnitud podría ser una señal de problemas subyacentes en los datos. Por ejemplo, un conjunto de datos con una DPL alta podría reflejar sesgos históricos o prejuicios contra grupos demográficos basados en la edad que no sería deseable que un modelo aprendiera.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Desequilibrio de clases (CI)

Divergencia de Kullback-Leibler (KL)