Diferença nas proporções dos rótulos (DPL) - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Diferença nas proporções dos rótulos (DPL)

A diferença nas proporções dos rótulos (DPL) compara a proporção de resultados observados com rótulos positivos para a faceta d com a proporção de resultados observados com rótulos positivos da faceta a em um conjunto de dados de treinamento. Por exemplo, você pode usá-la para comparar a proporção de indivíduos de meia idade (faceta a) e outras faixas etárias (faceta d) aprovados para empréstimos financeiros. Os modelos de machine learning tentam imitar as decisões de dados de treinamento da forma mais próxima possível. Portanto, um modelo de aprendizado de máquina treinado em um conjunto de dados com uma alta DPL provavelmente refletirá o mesmo desequilíbrio em suas previsões futuras.

A fórmula para a diferença nas proporções dos rótulos é a seguinte:

        DPL= (q a - qd)

Em que:

  • qa = na(1)/na é a proporção da faceta a que tem um valor de rótulo observado de 1. Por exemplo, a proporção de um grupo demográfico de meia idade que recebe aprovação para empréstimos. Aqui, na(1) representa o número de membros da faceta a que obtêm um resultado positivo e na é o número de membros da faceta a.

  • qd = nd(1)/nd é a proporção da faceta d que tem um valor de rótulo observado de 1. Por exemplo, a proporção de pessoas fora do grupo demográfico de meia idade que recebe aprovação para empréstimos. Aqui, nd(1) representa o número de membros da faceta d que obtêm um resultado positivo e nd é o número de membros da faceta d.

Se DPL estiver próximo o suficiente de 0, dizemos que a paridade demográfica foi alcançada.

Para rótulos de facetas binários e multicategoriais, os DPL valores variam ao longo do intervalo (-1, 1). Para rótulos contínuos, definimos um limite para recolher os rótulos para binários.

  • DPLValores positivos indicam que a faceta a tem uma proporção maior de resultados positivos quando comparada com a faceta d.

  • Valores DPL próximos de zero indicam uma proporção mais igual de resultados positivos entre as facetas e um valor zero indica paridade demográfica perfeita.

  • DPLValores negativos indicam que a faceta d tem uma proporção maior de resultados positivos quando comparada com a faceta a.

O fato de uma alta magnitude de DPL ser problemática varia de uma situação para outra. Em um caso problemático, uma alta magnitude DPL pode ser um sinal de problemas subjacentes nos dados. Por exemplo, um conjunto de dados alto DPL pode refletir preconceitos históricos ou preconceitos contra grupos demográficos baseados na idade, o que seria indesejável para um modelo aprender.