Diferença de recordação (RD) - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Diferença de recordação (RD)

A métrica de diferença de recordação (RD) é a diferença na recordação do modelo entre a faceta favorecida a e a faceta desfavorecida d. Qualquer diferença nessas recordações é uma forma potencial de desvio. A recordação é a taxa positivo verdadeira (TPR), que mede com que frequência o modelo prevê corretamente os casos que devem receber um resultado positivo. A recordação é perfeita para uma faceta se todos os casos y=1 forem corretamente previstos como y’=1 para essa faceta. A recordação é maior quando o modelo minimiza os falso-negativos, conhecidos como erro do Tipo II. Por exemplo, quantas pessoas em dois grupos diferentes (facetas a e d) que deveriam se qualificar para empréstimos são detectadas corretamente pelo modelo? Se a taxa de recordação for alta para empréstimos para a faceta a, mas baixa para empréstimos para a faceta d, a diferença fornece uma medida desse desvio em relação ao grupo pertencente à faceta d.

A fórmula para a diferença nas taxas de recordação das facetas a e d:

        RD = TPa/(TPa + FNa) - TPd/(TPd + FNd) = TPRa - TPRd

Em que:

  • TPa são os positivos verdadeiros previstos para a faceta a.

  • FNa são os falso-negativos previstos para a faceta a.

  • TPd são os positivos verdadeiros previstos para a faceta d.

  • FNd são os falso-negativos previstos para a faceta d.

  • TPR a = TPa/(TPa + FNa) é a recordação da faceta a, ou sua taxa positiva verdadeira.

  • TPRd TPd/(TPd + FNd) é a recordação da faceta d, ou sua taxa positiva verdadeira.

Por exemplo, considere as seguintes matrizes de confusão para as facetas a e d:

Matriz de confusão para a faceta a favorecida

Previsões de classe a Resultado real 0 Resultado real 1 Total
0 20 5 25
1 10 65 75
Total 30 70 100

Matriz de confusão para a faceta d desfavorecida

Previsões de classe d Resultado real 0 Resultado real 1 Total
0 18 7 25
1 5 20 25
Total 23 27 50

O valor da diferença de recordação é RD = 65/70 - 20/27 = 0,93 - 0,74 = 0,19, o que indica um desvio contra a faceta d.

O intervalo de valores para a diferença de recordação entre as facetas a e d para classificação binária e multicategórica é [-1, +1]. Esta métrica não está disponível para o caso de rótulos contínuos.

  • Valores positivos são obtidos quando há maior recordação para a faceta a do que para a faceta d. Isso sugere que o modelo encontra mais positivos verdadeiros para a faceta a do que para a faceta d, que é uma forma de desvio.

  • Valores próximos de zero indicam que a recordação das facetas sendo comparadas é semelhante. Isso sugere que o modelo encontra aproximadamente o mesmo número de positivos verdadeiros em ambas as facetas e não é tendencioso.

  • Valores negativos são obtidos quando há maior recordação para a faceta d do que para a faceta a. Isso sugere que o modelo encontra mais positivos verdadeiros para a faceta d do que para a faceta a, que é uma forma de desvio.