Dados pós-treinamento e métricas de viés do modelo - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Dados pós-treinamento e métricas de viés do modelo

O Amazon SageMaker Clarify fornece onze dados pós-treinamento e métricas de viés de modelos para ajudar a quantificar várias concepções de justiça. Esses conceitos não podem ser todos satisfeitos simultaneamente e a seleção depende das especificidades dos casos envolvendo possíveis desvios que estão sendo analisados. A maioria dessas métricas é uma combinação dos números retirados das matrizes de confusão de classificação binária para os diferentes grupos demográficos. Como a equidade e o desvio podem ser definidos por uma ampla variedade de métricas, é necessário o julgamento humano para entender e escolher quais métricas são relevantes para o caso de uso individual, e os clientes devem consultar as partes interessadas apropriadas para determinar a medida apropriada de equidade para sua aplicação.

Usamos a notação a seguir para debater as métricas de desvio. O modelo conceitual descrito aqui é para classificação binária, em que os eventos são rotulados como tendo apenas dois resultados possíveis em seu espaço amostral, chamados de positivos (com valor 1) e negativos (com valor 0). Esse framework geralmente é extensível à classificação multicategórica de forma direta ou a casos que envolvem resultados contínuos valiosos, quando necessário. No caso da classificação binária, rótulos positivos e negativos são atribuídos aos resultados registrados em um conjunto de dados bruto para uma faceta favorecida a e para uma faceta desfavorecida d. Esses rótulos y são chamados de rótulos observados para diferenciá-los dos rótulos previstos y' que são atribuídos por um modelo de machine learning durante os estágios de treinamento ou inferências do ciclo de vida do ML. Esses rótulos são usados para definir distribuições de probabilidade Pa(y) e Pd(y) para seus respectivos resultados facetários.

  • rótulos:

    • y representa os n rótulos observados para resultados de eventos em um conjunto de dados de treinamento.

    • y' representa os rótulos previstos para os n rótulos observados no conjunto de dados por um modelo treinado.

  • resultados:

    • Um resultado positivo (com valor 1) para uma amostra, como a aceitação de uma candidatura.

      • n(1) é o número de rótulos observados para resultados positivos (aceitações).

      • n'(1) é o número de rótulos previstos para resultados positivos (aceitações).

    • Um resultado negativo (com valor 0) para uma amostra, como uma rejeição de candidatura.

      • n(0) é o número de rótulos observados para resultados negativos (rejeições).

      • n'(0) é o número de rótulos previstos para resultados negativos (rejeições).

  • valores da faceta:

    • faceta a — O valor da característica que define um grupo demográfico que o desvio favorece.

      • na é o número de rótulos observados para o valor da faceta favorecido: na = na(1) + na(0) a soma dos rótulos observados positivos e negativos para a faceta de valor a.

      • n'a é o número de rótulos previstos para o valor da faceta favorecido: n'a = n'a(1) + n'a(0) a soma dos rótulos de resultados previstos positivos e negativos para a faceta de valor a. Observe que n'a = na.

    • faceta d — O valor da característica que define um grupo demográfico que o desvio desfavorece.

      • nd é o número de rótulos observados para o valor da faceta desfavorecido: nd = nd(1) + nd(0) a soma dos rótulos observados positivos e negativos para a faceta de valor d.

      • n'd é o número de rótulos previstos para o valor da faceta desfavorecido: n'd = n'd(1) + n'd(0) a soma dos rótulos previstos positivos e negativos para a faceta de valor d. Observe que n'd = nd.

  • distribuições de probabilidade para resultados dos resultados dos dados facetários rotulados:

    • Pa(y) é a distribuição de probabilidade dos rótulos observados para a faceta a. Para dados binários rotulados, essa distribuição é dada pela razão entre o número de amostras na faceta a rotulada com resultados positivos e o número total, Pa(y1) = na(1)/ na, e a razão entre o número de amostras com resultados negativos e o número total, Pa(y0) = na(0)/ na.

    • Pd(y) é a distribuição de probabilidade dos rótulos observados para a faceta d. Para dados binários rotulados, essa distribuição é dada pelo número de amostras na faceta d rotulada com resultados positivos e o número total, Pd(y1) = nd(1)/ nd, e a razão entre o número de amostras com resultados negativos e o número total, Pd(y0) = nd(0)/ nd.

A tabela a seguir contém uma folha de dicas para orientação rápida e links para as métricas de desvio pós-treinamento.

Métricas de desvio pós-treinamento

Métrica de desvio pós-treinamento Descrição Exemplo de pergunta Interpretar valores de métricas
Diferença nas proporções positivas nos rótulos previstos (DPPL) Mede a diferença na proporção de previsões positivas entre a faceta favorecida a e a faceta desfavorecida d.

Houve um desequilíbrio entre os grupos demográficos nos resultados positivos previstos que possa indicar desvio?

Intervalo para rótulos normalizados binárias e de facetas multicategóricas: [-1,+1]

Intervalo para rótulos contínuos: (-∞, +∞)

Interpretação:

  • Valores positivos indicam que a faceta favorecida a tem uma proporção maior de resultados positivos previstos.

  • Valores próximos de zero indicam uma proporção mais uniforme de resultados positivos previstos entre as facetas.

  • Valores negativos indicam que a faceta d tem uma proporção maior de resultados positivos previstos.

Impacto díspar (DI) Mede a proporção das proporções dos rótulos previstos para a faceta favorecida a e a faceta desfavorecida d. Houve um desequilíbrio entre os grupos demográficos nos resultados positivos previstos que possa indicar desvio?

Intervalo para rótulos binários normalizados, contínuos e de facetas multicategóricas: [0,∞)

Interpretação:

  • Valores menores que 1 indicam que a faceta favorecida a tem uma proporção maior de resultados positivos previstos.

  • Um valor de 1 indica que temos paridade demográfica.

  • Valores maiores que 1 indicam que a faceta d tem uma proporção maior de resultados positivos previstos.

Disparidade demográfica condicional em rótulos previstos () CDDPL Mede a disparidade de rótulos previstos entre diferentes facetas como um todo, mas também por subgrupos. Alguns grupos demográficos têm uma proporção maior de rejeições nos resultados de pedido de empréstimo do que a proporção de aceitações?

A faixa de CDDPL valores para resultados binários, multicategoriais e contínuos: [-1, +1]

  • Valores positivos indicam resultados em que a faceta d é mais rejeitada do que aceita.

  • Valores próximos de zero indicam nenhuma disparidade demográfica em média.

  • Valores negativos indicam resultados em que a faceta a é mais rejeitada do que aceita.

Teste de inversão contrafactual (FT) Examina cada membro da faceta d e avalia se membros semelhantes da faceta a têm previsões de modelos diferentes. Um grupo de uma faixa etária específica corresponde estreitamente em todas as características a uma faixa etária diferente, mas paga mais, em média? O intervalo para rótulos binários e de facetas multicategóricas é [-1, +1].
  • Valores positivos ocorrem quando o número de decisões contrafactuais desfavoráveis para a faceta desfavorecida d excede as favoráveis.

  • Valores próximos de zero ocorrem quando o número de decisões contrafactuais desfavoráveis e favoráveis do teste de inversão se equilibra.

  • Valores negativos ocorrem quando o número de decisões contrafactuais desfavoráveis para a faceta desfavorecida d é menor do que as favoráveis.

Diferença de precisão (AD) Mede a diferença entre a precisão da previsão para as facetas favorecidas e desfavorecidas. O modelo prevê rótulos com a mesma precisão para aplicações em todos os grupos demográficos? O intervalo para rótulos binários e de facetas multicategóricas é [-1, +1].
  • Valores positivos indicam que a faceta d sofre mais com alguma combinação de falso-positivos (erros do Tipo I) ou falso-negativos (erros do Tipo II). Isso significa que há um desvio potencial contra a faceta d desfavorecida.

  • Valores próximos de zero ocorrem quando a precisão da previsão para a faceta a é semelhante à da faceta d.

  • Valores negativos indicam que a faceta a sofre mais com alguma combinação de falso-positivos (erros do Tipo I) ou falso-negativos (erros do Tipo II). Isso significa que há um desvio contra a faceta a favorecida.

Diferença de recordação (RD) Compara a recordação do modelo quanto às facetas favorecidas e desfavorecidas. Existe um desvio baseado na idade nos empréstimos devido a um modelo com maior recordação para uma faixa etária em comparação com outra?

Intervalo para classificação binária e multicategorial: [-1, +1].

  • Valores positivos sugerem que o modelo encontra mais dos positivos verdadeiros para a faceta a e é tendencioso contra a faceta desfavorecida d.

  • Valores próximos de zero sugerem que o modelo encontra aproximadamente o mesmo número de positivos verdadeiros em ambas as facetas e não é tendencioso.

  • Valores negativos sugerem que o modelo encontra mais dos positivos verdadeiros para a faceta d e é tendencioso contra a faceta preferida a.

Diferença na aceitação condicional () DCAcc Compara os rótulos observados com os rótulos previstos por um modelo. Avalia se isso é o mesmo em todas as facetas para resultados positivos previstos (aceitações). Ao comparar uma faixa etária com outra, os empréstimos são aceitos com mais ou menos frequência do que o previsto (baseado nas qualificações)?

O intervalo para rótulos binários, contínuos e de facetas multicategóricas: (-∞, +∞).

  • Valores positivos indicam um possível desvio contra os candidatos qualificados a partir da faceta desfavorecida d.

  • Valores próximos de zero indicam que candidatos qualificados de ambas as facetas estão sendo aceitos de forma semelhante.

  • Valores negativos indicam um possível desvio contra os candidatos qualificados da faceta favorecida a.

Diferença nas taxas de aceitação (DAR) Mede a diferença nas proporções entre os resultados positivos observados (TP) e os positivos previstos (TP + FP) entre as facetas favorecidas e desfavorecidas. O modelo tem a mesma precisão ao prever aceitações de empréstimos para candidatos qualificados em todas as faixas etárias? O intervalo para rótulos binários, contínuos e de faceta multicategórica é [-1, +1].
  • Valores positivos indicam um possível desvio contra a faceta d causado pela ocorrência de relativamente mais falso-positivos na faceta desfavorecida d.

  • Valores próximos de zero indicam que os rótulos observados para resultados positivos (aceitações) estão sendo previstos com igual precisão para ambas as facetas pelo modelo.

  • Valores negativos indicam um possível desvio contra a faceta a causado pela ocorrência de relativamente mais falso-positivos na faceta favorecida a.

Diferença de especificidade (SD) Compara a especificidade do modelo entre facetas favorecidas e desfavorecidas. Existe um desvio baseado na idade nos empréstimos porque o modelo prevê uma maior especificidade para uma faixa etária em comparação com outra?

Intervalo para classificação binária e multicategorial: [-1, +1].

  • Valores positivos sugerem que o modelo encontra menos falso-positivos para a faceta d e é tendencioso contra a faceta desfavorecida d.

  • Valores próximos de zero sugerem que o modelo encontra um número similar de falso-positivos em ambas as facetas e não é tendencioso.

  • Valores negativos sugerem que o modelo encontra menos falso-positivos para a faceta a e é tendencioso contra a faceta preferida a.

Diferença na rejeição condicional () DCR Compara os rótulos observados com os rótulos previstos por um modelo e avalia se isso é o mesmo em todas as facetas para resultados negativos (rejeições). Há mais ou menos rejeições para pedidos de empréstimo do que o previsto para uma faixa etária em comparação com outra baseado nas qualificações? O intervalo para rótulos binários, contínuos e de facetas multicategóricas: (-∞, +∞).
  • Valores positivos indicam um possível desvio contra os candidatos qualificados a partir da faceta desfavorecida d.

  • Valores próximos de zero indicam que candidatos qualificados de ambas as facetas estão sendo rejeitados de forma semelhante.

  • Valores negativos indicam um possível desvio contra os candidatos qualificados da faceta favorecida a.

Diferença nas taxas de rejeição (DRR) Mede a diferença nas proporções entre os resultados negativos observados (TN) e os negativos previstos (TN + FN) entre as facetas desfavorecidas e favorecidas. O modelo tem a mesma precisão ao prever rejeições de empréstimos para candidatos não qualificados em todas as faixas etárias? O intervalo para rótulos binários, contínuos e de faceta multicategórica é [-1, +1].
  • Valores positivos indicam um possível desvio causado pela ocorrência de relativamente mais falso-negativos na faceta favorecida a.

  • Valores próximos de zero indicam que resultados negativos (rejeições) estão sendo previstos com igual precisão para ambas as facetas.

  • Valores negativos indicam um possível desvio causado pela ocorrência de relativamente mais falso-negativos na faceta desfavorecida d.

Igualdade de tratamento (TE) Mede a diferença na proporção de falso-positivos e falso-negativos entre as facetas favorecidas e desfavorecidas. Em pedidos de empréstimo, a proporção relativa de falso-positivos para falso-negativos é a mesma em todas as faixas etárias? O intervalo para rótulos binários e de facetas multicategóricas: (-∞, +∞).
  • Valores positivos ocorrem quando a proporção de falso-positivos para falso-negativos para a faceta a é maior que para a faceta d.

  • Valores próximos de zero ocorrem quando a proporção de falso-positivos para falso-negativos para a faceta a é semelhante à da faceta d.

  • Valores negativos ocorrem quando a proporção de falso-positivos para falso-negativos para a faceta a é menor do que para a faceta d.

Entropia generalizada (GE) Mede a desigualdade nos benefícios b atribuídos a cada entrada pelas previsões do modelo. Dos dois modelos de candidatos para classificação de pedido de empréstimo, um leva a uma distribuição irregular dos resultados desejados do que o outro? O intervalo para rótulos binários e multicategóricos: (0, 0.5). A GE é indefinida quando o modelo prevê somente falso-negativos.
  • Valores zero ocorrem quando todas as previsões estão corretas ou todas as previsões são falso-positivos.

  • Valores positivos indicam desigualdade nos benefícios; 0,5 corresponde à maior desigualdade.

Para obter informações adicionais sobre métricas de desvio pós-treinamento, consulte Fairness Measures for Machine Learning in Finance.