Diferença nas proporções positivas nos rótulos previstos (DPPL) - Amazon SageMaker

Diferença nas proporções positivas nos rótulos previstos (DPPL)

A diferença nas proporções positivas na métrica de rótulos previstos (DPPL) determina se o modelo prevê resultados de forma diferente para cada faceta. É definido como a diferença entre a proporção de predições positivas (y' = 1) para a faceta a e a proporção de predições positivas (y' = 1) para a faceta d. Por exemplo, se as predições de modelo concederem empréstimos a 60% de um grupo de meia-idade (faceta a) e 50% de outras faixas etárias (faceta d), ele pode ser tendencioso contra a faceta d. Neste exemplo, você deve determinar se a diferença de 10% é relevante para um caso de desvio.

Uma comparação da diferença nas proporções dos rótulos (DPL), uma medida do desvio no pré-treinamento, com o DPPL, uma medida do desvio no pós-treinamento, avalia se o desvio em proporções positivas, que está inicialmente presente no conjunto de dados, muda após o treinamento. Se o DPPL for maior que o DPL, o desvio em proporções positivas aumentou após o treinamento. Se o DPPL for menor que o DPL, o modelo não teve aumento no desvio em proporções positivas após o treinamento. A comparação do DPL com o DPPL não garante que o modelo reduza o desvio em todas as dimensões. Por exemplo, o modelo ainda pode ser tendencioso ao considerar outras métricas, como Teste de inversão contrafactual (FT) ou Diferença de precisão (AD). Para obter mais informações sobre a detecção de desvio, consulte a postagem do blog Saiba como o Amazon SageMaker Clarify ajuda a detectar desvios. Consulte Diferença nas proporções dos rótulos (DPL) para mais informações sobre DPL.

A fórmula do DPPL é:

        DPPL = q'a - q'd

Em que:

  • q'a = n'a(1)/na é a proporção prevista da faceta a que obtém um resultado positivo de valor 1. Em nosso exemplo, a proporção de uma faceta de meia-idade prevista para a concessão de um empréstimo. Aqui, n'a(1) representa o número de membros da faceta a que obtêm um resultado positivo previsto de valor 1 e na é o número de membros da faceta a.

  • q'd = n'd(1)/nd é a proporção prevista da faceta d que obtém um resultado positivo de valor 1. Em nosso exemplo, uma faceta de pessoas mais velhas e mais jovens previu a concessão de um empréstimo. Aqui, n'd(1) representa o número de membros da faceta d que obtêm um resultado positivo previsto e nd é o número de membros da faceta d.

Se o DPPL estiver próximo o suficiente de 0, isso significa que a paridade demográfica pós-treinamento foi alcançada.

Para rótulos de facetas binárias e multicategóricas, os valores de DPL variam ao longo do intervalo [-1, 1]. Para rótulos contínuos, os valores variam ao longo do intervalo (-∞, +∞).

  • Valores positivos de DPPL indicam que a faceta a tem uma proporção maior de resultados positivos quando comparada com a faceta d.

    Isso é conhecido como desvio positivo.

  • Valores de DPPL próximos de zero indicam uma proporção mais igual de resultados positivos previstos entre as facetas a e d e um valor de zero indica paridade demográfica perfeita.

  • Valores negativos de DPPL indicam que a faceta d tem uma proporção maior de resultados positivos quando comparada com a faceta a. Isso é conhecido como desvio negativo.