Desvio nos dados de pré-treinamento
Desvio algorítmico, discriminação, equidade e tópicos relacionados foram estudados em várias disciplinas, como direito, política e ciência da computação. Um sistema de computador pode ser considerado tendencioso se discriminar certos indivíduos ou grupos de indivíduos. Os modelos de machine learning que alimentam esses aplicações aprendem com os dados e esses dados podem refletir disparidades ou outros vieses inerentes. Por exemplo, os dados de treinamento podem não ter representação suficiente de vários grupos demográficos ou conter rótulos tendenciosos. Os modelos de machine learning treinados em conjuntos de dados que exibem esses vieses podem acabar aprendendo-os e, em seguida, reproduzir ou até mesmo exacerbar esses vieses em suas predições. O campo do machine learning oferece uma oportunidade de lidar com vieses detectando-os e medindo-os em cada estágio do ciclo de vida do ML. Você pode usar o Amazon SageMaker Clarify para determinar se os dados usados para modelos de treinamento codificam algum desvio.
O desvio pode ser medido antes e após o treinamento e monitorado em relação às linhas de base após a implantação de modelos em endpoints para inferência. As métricas de desvio pré-treinamento são projetadas para detectar e medir o desvio nos dados brutos antes de serem usados para treinar um modelo. As métricas usadas são independentes do modelo porque não dependem de nenhuma saída do modelo. No entanto, existem diferentes conceitos de equidade que exigem medidas distintas de desvios. O Amazon SageMaker Clarify fornece métricas de desvio para quantificar vários critérios de imparcialidade.
Para obter informações adicionais sobre métricas de desvio, consulte Saiba como o Amazon SageMaker Clarify ajuda a detectar desvios
Termos do Amazon SageMaker Clarify para desvio e equidade
O SageMaker Clarify usa a terminologia a seguir para discutir desvios e equidade.
- Atributo
-
Uma propriedade individual mensurável ou característica de um fenômeno que está sendo observado, contida em uma coluna para dados tabulares.
- Rótulo
-
Recurso que é o alvo para treinar um modelo de machine learning. Referido como rótulo observado ou resultado observado.
- Rótulo previsto
-
O rótulo conforme previsto pelo modelo. Também conhecido como resultado previsto.
- Amostra
-
Uma entidade observada descrita por valores de atributo e valores de rótulo, contida em uma linha para dados tabulares.
- Conjunto de dados
-
Uma coleção de amostras.
- Desvio
-
Um desequilíbrio nos dados de treinamento ou no comportamento de predição de modelo em diferentes grupos, como idade ou faixa de renda. Os vieses podem resultar dos dados ou do algoritmo usado para treinar seu modelo. Por exemplo, se um modelo de ML for treinado principalmente com dados de indivíduos de meia idade, ele pode ser menos preciso ao fazer predições envolvendo pessoas mais jovens e mais velhas.
- Métrica de desvio
-
Uma função que retorna valores numéricos indicando o nível de um desvio potencial.
- Relatório de desvio
-
Uma coleção de métricas de desvio para um determinado conjunto de dados ou uma combinação de um conjunto de dados e um modelo.
- Valores positivos do rótulo
-
Valores do rótulo que são favoráveis a um grupo demográfico observado em uma amostra. Em outras palavras, designa uma amostra como tendo um resultado positivo.
- Valores negativos do rótulo
-
Valores do rótulo que são desfavoráveis a um grupo demográfico observado em uma amostra. Em outras palavras, designa uma amostra como tendo um resultado negativo.
- Variável de grupo
-
Coluna categórica do conjunto de dados usada para formar subgrupos para a medição da Disparidade demográfica condicional (CDD). Obrigatória somente para essa métrica em relação ao paradoxo de Simpson.
- Faceta
-
Uma coluna ou atributo que contém os atributos com relação aos quais o desvio é medido.
- Valor da faceta
-
Os valores de atributo dos atributos dos quais o desvio pode favorecer ou desfavorecer.
- Probabilidade prevista
-
A probabilidade, conforme prevista pelo modelo, de uma amostra ter um resultado positivo ou negativo.
Cadernos de exemplo
O Amazon SageMaker Clarify fornece os seguintes cadernos de exemplo para a detecção de desvios:
-
Explicabilidade e detecção de desvios com o Amazon SageMaker Clarify
: Use o SageMaker Clarify para criar um trabalho de processamento para detectar desvios e explicar as predições de modelo com atribuições de atributos.
Foi verificado que esse caderno é executado somente no Amazon SageMaker Studio. Se você precisar de instruções sobre como abrir um caderno no Amazon SageMaker Studio, consulte Criar ou abrir um caderno do Amazon SageMaker Studio Classic. Caso seja solicitado que você escolha um kernel, escolha Python 3 (Ciência de dados).