Diferença na rejeição condicional (DCR) - Amazon SageMaker

Diferença na rejeição condicional (DCR)

Essa métrica compara os rótulos observados com os rótulos previstos pelo modelo e avalia se isso é o mesmo em todas as facetas para resultados negativos (rejeições). Essa métrica quase imita o desvio humano, pois quantifica quantos resultados negativos a mais um modelo concedeu (rótulos previstos y’) a uma determinada faceta em comparação com o que foi sugerido pelos rótulos no conjunto de dados de treinamento (rótulos observados y). Por exemplo, se houvesse mais rejeições observadas (um resultado negativo) para pedidos de empréstimo para um grupo de meia-idade (faceta a) do que o previsto pelo modelo baseado em qualificações em comparação com a faceta contendo outras faixas etárias (faceta d), isso pode indicar um desvio potencial na forma como os empréstimos foram rejeitados, favorecendo o grupo de meia-idade em relação a outros grupos.

A fórmula da diferença na aceitação condicional:

        DCR = rd - ra

Em que:

  • rd = nd(0)/ n'd(0) é a razão entre o número observado de resultados negativos de valor 0 (rejeições) da faceta d e o número previsto de resultados negativos (rejeições) para a faceta d.

  • ra = na(0)/ n'a(0) é a razão entre o número observado de resultados negativos de valor 0 (rejeições) da faceta a e o número previsto de resultados negativos de valor 0 (rejeições) para a faceta a.

A métrica DCR pode capturar desvios positivos e negativos que revelam tratamento preferencial baseado nas qualificações. Considere as seguintes instâncias de desvio baseado na idade na aceitação de empréstimos:

Exemplo 1: desvio positivo

Suponha que tenhamos um conjunto de dados de 100 pessoas de meia-idade (faceta a) e 50 pessoas de outras faixas etárias (faceta d) que solicitaram empréstimos, onde o modelo recomendou que 60 da faceta a e 30 da faceta dfossem rejeitadas para empréstimos. Portanto, as proporções previstas são imparciais pela métrica DPPL, mas os rótulos observados mostram que 50 da faceta a e 40 da faceta d foram rejeitados. Em outras palavras, o modelo rejeitou 17% mais empréstimos da faceta de meia-idade do que os rótulos observados nos dados de treinamento sugeridos (50/60 = 0,83) e rejeitou 33% menos empréstimos do que outras faixas etárias do que os rótulos observados sugeriram (40/30 = 1,33). O valor de DCR quantifica essa diferença na proporção das taxas de rejeição observadas e previstas entre as facetas. O valor positivo indica que há um desvio potencial que favorece o grupo de meia-idade com taxas de rejeição mais baixas em comparação com outros grupos do que os dados observados (considerados imparciais) indicam ser o caso.

        DCR = 40/30 - 50/60 = 1/2

Exemplo 2: desvio negativo

Suponha que tenhamos um conjunto de dados de 100 pessoas de meia-idade (faceta a) e 50 pessoas de outras faixas etárias (faceta d) que solicitaram empréstimos, onde o modelo recomendou que 60 da faceta a e 30 da faceta dfossem rejeitadas para empréstimos. Portanto, as proporções previstas são imparciais pela métrica DPPL, mas os rótulos observados mostram que 70 da faceta a e 20 da faceta d foram rejeitados. Em outras palavras, o modelo rejeitou 17% menos empréstimos da faceta de meia-idade do que os rótulos observados nos dados de treinamento sugeridos (70/60 = 1,17) e rejeitou 33% mais empréstimos do que outras faixas etárias do que os rótulos observados sugeriram (20/30 = 0,67). O valor negativo indica que há um desvio potencial que favorece a faceta a com taxas de rejeição mais baixas em comparação com a faceta a de meia-idade do que os dados observados (considerados imparciais) indicam ser o caso.

        DCR = 20/30 - 70/60 = -1/2

O intervalo de valores para diferenças na rejeição condicional para rótulos binários, contínuos e de faceta multicategórica é (-∞, +∞).

  • Valores positivos ocorrem quando a razão do número observado de rejeições em comparação com as rejeições previstas para a faceta d é maior do que a razão para a faceta a. Esses valores indicam um possível desvio contra os candidatos qualificados da faceta a. Quanto maior o valor da métrica DCR, mais extremo será o desvio aparente.

  • Valores próximos de zero ocorrem quando a proporção do número observado de rejeições em comparação com as aceitações previstas para a faceta a é similar à proporção para a faceta d. Esses valores indicam que as taxas de rejeições previstas são consistentes com os valores observados nos dados rotulados e que candidatos qualificados de ambas as facetas estão sendo rejeitados de forma semelhante.

  • Valores negativos ocorrem quando a proporção do número observado de rejeições em comparação às rejeições previstas para a faceta d é menor que a faceta a da proporção. Esses valores indicam um possível desvio contra os candidatos qualificados da faceta d. Quanto maior a magnitude da métrica de DCR negativa, mais extremo será o desvio aparente.