Disparidade demográfica condicional em rótulos previstos (CDDPL) - Amazon SageMaker

Disparidade demográfica condicional em rótulos previstos (CDDPL)

A métrica de disparidade demográfica (DDPL) determina se a faceta d tem uma proporção maior de rótulos rejeitados previstos do que dos rótulos aceitos previstos. Ele permite uma comparação da diferença na proporção de rejeição prevista e na proporção de aceitação prevista pelas facetas. Essa métrica é exatamente igual à métrica CDD de pré-treinamento, exceto que é calculada com base nos rótulos previstos em vez dos observados. Essa métrica está no intervalo (-1,+1).

A fórmula para as predições de disparidade demográfica para rótulos da faceta d é a seguinte:

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1)

Em que:

  • n'(0) = n'a(0) + n'd(0) é o número previsto de rótulos rejeitados para as facetas a e d.

  • n'(1) = n'a(1) + n'd(1) é o número de rótulos aceitos previstos para as facetas a e d.

  • PdR(y'0) é a proporção de rótulos rejeitados previstos (valor 0) na faceta d.

  • PdA(y'1) é a proporção de rótulos aceitos previstos (valor 1) na faceta d.

Uma métrica de disparidade demográfica condicional em rótulos previstos (CDDPL) que condiciona o DDPL a atributos que definem um estrato de subgrupos no conjunto de dados é necessária para descartar o paradoxo de Simpson. O reagrupamento pode fornecer insights sobre a causa das aparentes disparidades demográficas nas facetas menos favorecidas. O caso clássico surgiu no caso de admissões em Berkeley, onde os homens foram aceitos com uma taxa geral mais alta do que as mulheres. Mas quando os subgrupos departamentais foram examinados, foi demonstrado que as mulheres tinham taxas de admissão mais altas do que os homens por departamento. A explicação foi que as mulheres se inscreveram em departamentos com taxas de aceitação mais baixas do que os homens. O exame das taxas de aceitação de subgrupos revelou que as mulheres foram realmente aceitas em uma taxa mais alta do que os homens nos departamentos com taxas de aceitação mais baixas.

A métrica CDDPL fornece uma medida única para todas as disparidades encontradas nos subgrupos definidos por um atributo de um conjunto de dados por meio da média deles. É definido como a média ponderada das disparidades demográficas nos rótulos previstos (DDPLi) para cada um dos subgrupos, com cada disparidade de subgrupo ponderada na proporção ao número de observações contidas. A fórmula para a disparidade demográfica condicional nos rótulos previstos é a seguinte:

        CDDPL = (1/n)*ini *DDPLi

Em que:

  • ini = n é o número total de observações e ni é o número de observações para cada subgrupo.

  • DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) é a disparidade demográfica nos rótulos previstos para o subgrupo.

Portanto, a disparidade demográfica de um subgrupo em rótulos previstos (DDPLi) é a diferença entre a proporção de rótulos rejeitados previstos e a proporção de rótulos aceitos previstos para cada subgrupo.

O intervalo de valores de DDPL para resultados binários, multicategóricos e contínuos é [-1, +1].

  • +1: quando não há rótulos de rejeição prevista para a faceta a ou subgrupo e nenhuma aceitação prevista na faceta d ou subgrupo.

  • Valores positivos indicam que há uma disparidade demográfica nos rótulos previstos, pois a faceta d ou subgrupo tem uma proporção maior dos rótulos rejeitados previstos do que dos rótulos aceitos previstos. Quanto maior o valor, maior será a disparidade.

  • Valores próximos de zero indicam que não há disparidade demográfica na média.

  • Valores negativos indicam que há uma disparidade demográfica nos rótulos previstos, pois a faceta a ou subgrupo tem uma proporção maior de rótulos rejeitados previstos do que de rótulos aceitos previstos. Quanto menor o valor, maior a disparidade.

  • -1: quando não há lapelas de rejeição previstas para a faceta d ou subgrupo e nenhuma aceitação prevista para a faceta a ou subgrupo.