Diferença nas proporções dos rótulos (DPL) - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Diferença nas proporções dos rótulos (DPL)

A diferença nas proporções de rótulos (DPL) compara a proporção de resultados observados com rótulos positivos para a faceta d com a proporção de resultados observados com rótulos positivos da faceta a em um conjunto de dados de treinamento. Por exemplo, você pode usá-la para comparar a proporção de indivíduos de meia idade (faceta a) e outras faixas etárias (faceta d) aprovados para empréstimos financeiros. Os modelos de machine learning tentam imitar as decisões de dados de treinamento da forma mais próxima possível. Portanto, um modelo de machine learning treinado em um conjunto de dados com uma alta DPL provavelmente refletirá o mesmo desequilíbrio em suas predições futuras.

A fórmula para a diferença nas proporções dos rótulos é a seguinte:

        DPL = (qa - qd)

Em que:

  • qa = na(1)/na é a proporção da faceta a que tem um valor de rótulo observado de 1. Por exemplo, a proporção de um grupo demográfico de meia idade que recebe aprovação para empréstimos. Aqui, na(1) representa o número de membros da faceta a que obtêm um resultado positivo e na é o número de membros da faceta a.

  • qd = nd(1)/nd é a proporção da faceta d que tem um valor de rótulo observado de 1. Por exemplo, a proporção de pessoas fora do grupo demográfico de meia idade que recebe aprovação para empréstimos. Aqui, nd(1) representa o número de membros da faceta d que obtêm um resultado positivo e nd é o número de membros da faceta d.

Se a DPL estiver próxima o suficiente de 0, dizemos que a paridade demográfica foi alcançada.

Para rótulos de facetas binários e multicategóricos, os valores de DPL variam ao longo do intervalo (-1, 1). Para rótulos contínuos, definimos um limite para reduzir os rótulos para binários.

  • Valores positivos de DPL indicam que a faceta a tem uma proporção maior de resultados positivos quando comparada com a faceta d.

  • Valores de DPL próximos de zero indicam uma proporção mais uniforme de resultados positivos entre as facetas e um valor de zero indica paridade demográfica perfeita.

  • Valores negativos de DPL indicam que a faceta d tem uma proporção maior de resultados positivos quando comparada com a faceta a.

O fato de uma alta magnitude de DPL ser problemática varia de uma situação para outra. Em um caso problemático, uma DPL de alta magnitude pode ser um sinal de problemas subjacentes nos dados. Por exemplo, um conjunto de dados com alta DPL pode refletir desvios históricos ou preconceitos contra grupos demográficos baseados na idade que seriam indesejáveis para um modelo aprender.