Diferencia en las proporciones de las etiquetas () DPL - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Diferencia en las proporciones de las etiquetas () DPL

La diferencia en las proporciones de las etiquetas (DPL) compara la proporción de resultados observados con etiquetas positivas para la faceta d con la proporción de resultados observados con etiquetas positivas para la faceta a en un conjunto de datos de entrenamiento. Por ejemplo, podría usarse para comparar la proporción de personas de mediana edad (faceta a) y de otros grupos de edad (faceta d) a las que se aprueban préstamos financieros. Los modelos de machine learning intentan imitar las decisiones de los datos de entrenamiento lo más fielmente posible. Por lo tanto, DPL es probable que un modelo de aprendizaje automático entrenado en un conjunto de datos con un máximo refleje el mismo desequilibrio en sus predicciones futuras.

La fórmula para la diferencia en las proporciones de las etiquetas es la siguiente:

        DPL= (q a - qd)

Donde:

  • qa = na(1)/na es la proporción de facetas a que tienen un valor de etiqueta observada de 1. Por ejemplo, la proporción de personas de mediana edad a las que se aprueban préstamos. Aquí na(1) representa el número de miembros de la faceta a que obtienen un resultado positivo y na es el número de miembros de la faceta a.

  • qd = nd(1)/nd es la proporción de facetas d que tienen un valor de etiqueta observada de 1. Por ejemplo, la proporción de personas fuera del grupo demográfico de mediana edad a las que se aprueban préstamos. Aquí nd(1) representa el número de miembros de la faceta d que obtienen un resultado positivo y nd es el número de miembros de la faceta d.

Si DPL está lo suficientemente cerca de 0, entonces decimos que se ha alcanzado la paridad demográfica.

En el caso de las etiquetas de facetas binarias y multicategoría, los DPL valores oscilan a lo largo del intervalo (-1, 1). En el caso de las etiquetas continuas, se establece un umbral para reducir las etiquetas a binarias.

  • DPLLos valores positivos indican que la faceta a tiene una mayor proporción de resultados positivos en comparación con la faceta d.

  • Los valores DPL cercanos a cero indican una proporción más equitativa de resultados positivos entre las facetas y un valor igual a cero indica una paridad demográfica perfecta.

  • DPLLos valores negativos indican que la faceta d tiene una mayor proporción de resultados positivos en comparación con la faceta a.

El hecho de que una magnitud alta de la problemática DPL sea o no varía de una situación a otra. En un caso problemático, una magnitud alta DPL podría ser una señal de problemas subyacentes en los datos. Por ejemplo, un conjunto de datos con un valor alto DPL podría reflejar sesgos o prejuicios históricos contra los grupos demográficos basados en la edad que no sería deseable que un modelo aprendiera.