Diferença de especificidade (SD) - Amazon SageMaker

Diferença de especificidade (SD)

A diferença de especificidade (SD) é a diferença na especificidade entre a faceta favorecida a e a faceta desfavorecida d. A especificidade mede a frequência com que o modelo prevê corretamente um resultado negativo (y'=0). Qualquer diferença nessas especificidades é uma forma potencial de desvio.

A especificidade é perfeita para uma faceta se todos os casos y=0 forem previstos corretamente para essa faceta. A especificidade é maior quando o modelo minimiza os falso-positivos, conhecidos como erro do Tipo I. Por exemplo, a diferença entre uma baixa especificidade para emprestar para a faceta a e a alta especificidade para emprestar para a faceta d, é uma medida de desvio em relação à faceta d.

A fórmula a seguir é para a diferença na especificidade das facetas a e d.

        SD = TNd/(TNd + FPd) - TNa/(TNa + FPa) = TNRd - TNRa

As seguintes variáveis usadas para calcular a SD são definidas da seguinte forma:

  • TNd são os negativos verdadeiros previstos para a faceta d.

  • FPd são os falso-positivos previstos para a faceta d.

  • TNd são os negativos verdadeiros previstos para a faceta a.

  • FPd são os falso-positivos previstos para a faceta a.

  • TNRa = TNa/(TNa + FPa) é a taxa negativa verdadeira, também conhecida como especificidade, para a faceta a.

  • TNRd = TNd/(TNd + FPd) é a taxa negativa verdadeira, também conhecida como especificidade, para a faceta d.

Por exemplo, considere as seguintes matrizes de confusão para as facetas a e d:

Matriz de confusão para a faceta a favorecida

Previsões de classe a Resultado real 0 Resultado real 1 Total
0 20 5 25
1 10 65 75
Total 30 70 100

Matriz de confusão para a faceta d desfavorecida

Previsões de classe d Resultado real 0 Resultado real 1 Total
0 18 7 25
1 5 20 25
Total 23 27 50

O valor da diferença de especificidade é SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159, o que indica um desvio contra a faceta d.

O intervalo de valores para a diferença de especificidade entre as facetas a e d para classificação binária e multicategórica é [-1, +1]. Esta métrica não está disponível para o caso de rótulos contínuos. Aqui está o que os diferentes valores de SD implicam:

  • Valores positivos são obtidos quando há maior especificidade para a faceta d do que para a faceta a. Isso sugere que o modelo encontra menos falso-positivos para a faceta d do que para a faceta a. Um valor positivo indica um desvio em relação à faceta d.

  • Valores próximos de zero indicam que a especificidade das facetas que estão sendo comparadas é semelhante. Isso sugere que o modelo encontra um número semelhante de falso-positivos em ambas as facetas e não é tendencioso.

  • Valores positivos são obtidos quando há maior especificidade para a faceta a do que para a faceta d. Isso sugere que o modelo encontra mais falso-positivos para a faceta a do que para a faceta d. Um valor negativo indica um desvio em relação à faceta a.