Diferença na aceitação condicional (DCAcc) - Amazon SageMaker

Diferença na aceitação condicional (DCAcc)

Essa métrica compara os rótulos observados com os rótulos previstos pelo modelo e avalia se isso é o mesmo em todas as facetas para resultados positivos previstos. Essa métrica quase imita o desvio humano, pois quantifica quantos resultados positivos a mais um modelo previu (rótulos y’) para uma determinada faceta em comparação com o que foi observado no conjunto de dados de treinamento (rótulos y). Por exemplo, se houvesse mais aceitações (um resultado positivo) observadas no conjunto de dados de treinamento para pedidos de empréstimo de um grupo de meia-idade (faceta a) do que o previsto pelo modelo baseado nas qualificações em comparação com a faceta contendo outras faixas etárias (faceta d), isso pode indicar um desvio potencial na forma como os empréstimos foram aprovados em favor do grupo de meia-idade.

A fórmula da diferença na aceitação condicional:

        DCAcc = ca - cd

Em que:

  • ca = na(1)/ n'a(1) é a proporção entre o número observado de resultados positivos de valor 1 (aceitações) da faceta a e o número previsto de resultados positivos (aceitações) para a faceta a.

  • cd = nd(1)/ n'd(1) é a proporção entre o número observado de resultados positivos de valor 1 (aceitações) da faceta d e o número previsto de resultados positivos (aceitações) para a faceta a.

A métrica DCAcc pode capturar desvios positivos e negativos que revelam tratamento preferencial baseado nas qualificações. Considere os seguintes exemplos de preconceito baseado na idade na aceitação de empréstimos:

Exemplo 1: desvio positivo

Suponha que tenhamos um conjunto de dados de 100 pessoas de meia-idade (faceta a) e 50 pessoas de outras faixas etárias (faceta d) que pediram empréstimos, onde o modelo recomendou que 60 da faceta a e 30 da faceta d recebessem empréstimos. Portanto, as proporções previstas são imparciais em relação à métrica DPPL, mas os rótulos observados mostram que 70 da faceta a e 20 da faceta d foram concedidos empréstimos. Em outras palavras, o modelo concedeu empréstimos a 17% menos para a faceta de meia-idade do que os rótulos observados nos dados de treinamento sugeridos (70/60 = 1,17) e concedeu empréstimos a 33% a mais para outras faixas etárias do que os rótulos observados sugeriram (20/30 = 0,67). O cálculo do valor DCAcc fornece o seguinte:

        DCAcc = 70/60 - 20/30 = 1/2

O valor positivo indica que há um desvio potencial contra a faceta a de meia-idade com uma taxa de aceitação menor em comparação com a outra faceta d do que os dados observados (considerados imparciais) indicam ser o caso.

Exemplo 2: desvio negativo

Suponha que tenhamos um conjunto de dados de 100 pessoas de meia-idade (faceta a) e 50 pessoas de outras faixas etárias (faceta d) que pediram empréstimos, onde o modelo recomendou que 60 da faceta a e 30 da faceta d recebessem empréstimos. Portanto, as proporções previstas são imparciais em relação à métrica DPPL, mas os rótulos observados mostram que 50 da faceta a e 40 da faceta d foram concedidos empréstimos. Em outras palavras, o modelo concedeu empréstimos a 17% menos para faceta de meia-idade do que os rótulos observados nos dados de treinamento sugeridos (50/60 = 0,83) e concedeu empréstimos a 33% mais para outras faixas etárias que os rótulos observados sugeriram (40/30 = 1,33). O cálculo do valor DCAcc fornece o seguinte:

        DCAcc = 50/60 - 40/30 = -1/2

O valor negativo indica que há um desvio potencial contra a faceta d com uma taxa de aceitação menor em comparação com a faceta a de meia-idade do que os dados observados (considerados imparciais) indicam ser o caso.

Observe que você pode usar o DCAcc para ajudar você a detectar possíveis desvios (não intencionais) de humanos que supervisionam as predições de modelo em uma configuração human-in-the-loop. Suponha, por exemplo, que as predições y' do modelo foram imparciais, mas a eventual decisão é tomada por um humano (possivelmente com acesso a atributos adicionais) que pode alterar as predições de modelo para gerar uma versão nova e final de y'. O processamento adicional pelo ser humano pode, sem querer, negar empréstimos a um número desproporcional de uma faceta. O DCAcc pode ajudar a detectar esses possíveis desvios.

O intervalo de valores para diferenças na aceitação condicional para rótulos binários, contínuos e de faceta multicategórica é (-∞, +∞).

  • Valores positivos ocorrem quando a razão do número observado de aceitações em comparação com as aceitações previstas para a faceta a é maior do que a mesma razão para a faceta d. Esses valores indicam um possível desvio contra os candidatos qualificados da faceta a. Quanto maior a diferença das proporções, mais extremo é o desvio aparente.

  • Valores próximos de zero ocorrem quando a proporção do número observado de aceitações em comparação com as aceitações previstas para a faceta a é semelhante à proporção para a faceta d. Esses valores indicam que as taxas de aceitação previstas são consistentes com os valores observados nos dados rotulados e que candidatos qualificados de ambas as facetas estão sendo aceitos de forma semelhante.

  • Valores negativos ocorrem quando a razão do número observado de aceitações em comparação com as aceitações previstas para a faceta a é menor do que a proporção para a faceta d. Esses valores indicam um possível desvio contra os candidatos qualificados da faceta d. Quanto mais negativa for a diferença nas proporções, mais extremo será o desvio aparente.