Desvio nos dados de pré-treinamento

Modo de foco

Desvio nos dados de pré-treinamento - SageMaker IA da Amazon

A Amazon SageMaker esclarece os termos de preconceito e imparcialidade Cadernos de exemplo

Desvio algorítmico, discriminação, equidade e tópicos relacionados foram estudados em várias disciplinas, como direito, política e ciência da computação. Um sistema de computador pode ser considerado tendencioso se discriminar certos indivíduos ou grupos de indivíduos. Os modelos de machine learning que alimentam esses aplicações aprendem com os dados e esses dados podem refletir disparidades ou outros vieses inerentes. Por exemplo, os dados de treinamento podem não ter representação suficiente de vários grupos demográficos ou conter rótulos tendenciosos. Os modelos de machine learning treinados em conjuntos de dados que exibem esses vieses podem acabar aprendendo-os e, em seguida, reproduzir ou até mesmo exacerbar esses vieses em suas predições. O campo do machine learning oferece uma oportunidade de lidar com vieses detectando-os e medindo-os em cada estágio do ciclo de vida do ML. Você pode usar o Amazon SageMaker Clarify para determinar se os dados usados para modelos de treinamento codificam algum viés.

O desvio pode ser medido antes e após o treinamento e monitorado em relação às linhas de base após a implantação de modelos em endpoints para inferência. As métricas de desvio pré-treinamento são projetadas para detectar e medir o desvio nos dados brutos antes de serem usados para treinar um modelo. As métricas usadas são independentes do modelo porque não dependem de nenhuma saída do modelo. No entanto, existem diferentes conceitos de equidade que exigem medidas distintas de desvios. O Amazon SageMaker Clarify fornece métricas de preconceito para quantificar vários critérios de imparcialidade.

Para obter informações adicionais sobre métricas de viés, consulte Saiba como o Amazon SageMaker Clarify ajuda a detectar medidas tendenciosas e imparciais para o Machine Learning in Finance.

A Amazon SageMaker esclarece os termos de preconceito e imparcialidade

SageMaker O Clarify usa a seguinte terminologia para discutir preconceitos e imparcialidade.

Recurso: Uma propriedade individual mensurável ou característica de um fenômeno que está sendo observado, contida em uma coluna para dados tabulares.
Rótulo: Recurso que é o alvo para treinar um modelo de machine learning. Referido como rótulo observado ou resultado observado.
Rótulo previsto: O rótulo conforme previsto pelo modelo. Também conhecido como resultado previsto.
Amostra: Uma entidade observada descrita por valores de atributo e valores de rótulo, contida em uma linha para dados tabulares.
Conjunto de dados: Uma coleção de amostras.
Desvio: Um desequilíbrio nos dados de treinamento ou no comportamento de predição de modelo em diferentes grupos, como idade ou faixa de renda. Os vieses podem resultar dos dados ou do algoritmo usado para treinar seu modelo. Por exemplo, se um modelo de ML for treinado principalmente com dados de indivíduos de meia idade, ele pode ser menos preciso ao fazer predições envolvendo pessoas mais jovens e mais velhas.
Métrica de desvio: Uma função que retorna valores numéricos indicando o nível de um desvio potencial.
Relatório de desvio: Uma coleção de métricas de desvio para um determinado conjunto de dados ou uma combinação de um conjunto de dados e um modelo.
Valores positivos do rótulo: Valores do rótulo que são favoráveis a um grupo demográfico observado em uma amostra. Em outras palavras, designa uma amostra como tendo um resultado positivo.
Valores negativos do rótulo: Valores do rótulo que são desfavoráveis a um grupo demográfico observado em uma amostra. Em outras palavras, designa uma amostra como tendo um resultado negativo.
Variável de grupo: Coluna categórica do conjunto de dados usada para formar subgrupos para a medição da Disparidade demográfica condicional (CDD). Obrigatória somente para essa métrica em relação ao paradoxo de Simpson.
Faceta: Uma coluna ou atributo que contém os atributos com relação aos quais o desvio é medido.
Valor da faceta: Os valores de atributo dos atributos dos quais o desvio pode favorecer ou desfavorecer.
Probabilidade prevista: A probabilidade, conforme prevista pelo modelo, de uma amostra ter um resultado positivo ou negativo.

Cadernos de exemplo

O Amazon SageMaker Clarify fornece o seguinte exemplo de caderno para detecção de viés:

Explicabilidade e detecção de viés com o Amazon SageMaker Clarify — Use o SageMaker Clarify para criar um trabalho de processamento para detectar vieses e explicar as previsões do modelo com atribuições de recursos.

Este notebook foi verificado para ser executado somente no Amazon SageMaker Studio. Se você precisar de instruções sobre como abrir um notebook no Amazon SageMaker Studio, consulteCrie ou abra um notebook Amazon SageMaker Studio Classic. Caso seja solicitado que você escolha um kernel, escolha Python 3 (Ciência de dados).