Viés de dados antes do treinamento - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Viés de dados antes do treinamento

Desvio algorítmico, discriminação, equidade e tópicos relacionados foram estudados em várias disciplinas, como direito, política e ciência da computação. Um sistema de computador pode ser considerado tendencioso se discriminar certos indivíduos ou grupos de indivíduos. Os modelos de machine learning que alimentam esses aplicativos aprendem com os dados e esses dados podem refletir disparidades ou outros vieses inerentes. Por exemplo, os dados de treinamento podem não ter representação suficiente de vários grupos demográficos ou conter rótulos tendenciosos. Os modelos de machine learning treinados em conjuntos de dados que exibem esses vieses podem acabar aprendendo-os e, em seguida, reproduzir ou até mesmo exacerbar esses vieses em suas previsões. O campo do machine learning oferece uma oportunidade de lidar com vieses detectando-os e medindo-os em cada estágio do ciclo de vida do ML. Você pode usar o Amazon SageMaker Clarify para determinar se os dados usados para modelos de treinamento codificam algum viés

O viés pode ser medido antes e após o treinamento e monitorado em relação às linhas de base após a implantação de modelos em endpoints para inferência. As métricas de desvio pré-treinamento são projetadas para detectar e medir o desvio nos dados brutos antes de serem usados para treinar um modelo. As métricas usadas são independentes do modelo porque não dependem de nenhuma saída do modelo. No entanto, existem diferentes conceitos de equidade que exigem medidas distintas de desvios. O Amazon SageMaker Clarify fornece métricas de preconceito para quantificar vários critérios de imparcialidade.

Para obter informações adicionais sobre métricas de viés, consulte Saiba como o Amazon SageMaker Clarify ajuda a detectar medidas tendenciosas e imparciais para o Machine Learning in Finance.

Amazon SageMaker esclarece os termos de preconceito e imparcialidade

SageMaker O Clarify usa a seguinte terminologia para discutir preconceitos e imparcialidade.

Atributo

Uma propriedade individual mensurável ou característica de um fenômeno que está sendo observado, contida em uma coluna para dados tabulares.

Rótulo

Recurso que é o alvo para treinar um modelo de machine learning. Referido como rótulo observado ou resultado observado.

Rótulo previsto

O rótulo conforme previsto pelo modelo. Também conhecido como resultado previsto.

Amostra

Uma entidade observada descrita por valores de recurso e valores de rótulo, contida em uma linha para dados tabulares.

Conjunto de dados

Uma coleção de amostras.

Viés

Um desequilíbrio nos dados de treinamento ou no comportamento de previsão do modelo em diferentes grupos, como idade ou faixa de renda. Os vieses podem resultar dos dados ou do algoritmo usado para treinar seu modelo. Por exemplo, se um modelo de ML for treinado principalmente com dados de indivíduos de meia idade, ele pode ser menos preciso ao fazer previsões envolvendo pessoas mais jovens e mais velhas.

Métrica de desvio

Uma função que retorna valores numéricos indicando o nível de um desvio potencial.

Relatório de desvio

Uma coleção de métricas de desvio para um determinado conjunto de dados ou uma combinação de um conjunto de dados e um modelo.

Valores positivos do rótulo

Valores do rótulo que são favoráveis a um grupo demográfico observado em uma amostra. Em outras palavras, designa uma amostra como tendo um resultado positivo.

Valores negativos do rótulo

Valores do rótulo que são desfavoráveis a um grupo demográfico observado em uma amostra. Em outras palavras, designa uma amostra como tendo um resultado negativo.

Variável de grupo

Coluna categórica do conjunto de dados usada para formar subgrupos para a medição da disparidade demográfica condicional (). CDD Obrigatória somente para essa métrica em relação ao paradoxo de Simpson.

Faceta

Uma coluna ou recurso que contém os atributos com relação aos quais o desvio é medido.

Valor da faceta

Os valores de recurso dos atributos dos quais o desvio pode favorecer ou desfavorecer.

Probabilidade prevista

A probabilidade, conforme prevista pelo modelo, de uma amostra ter um resultado positivo ou negativo.

Cadernos de exemplo

O Amazon SageMaker Clarify fornece o seguinte exemplo de caderno para detecção de viés:

Este notebook foi verificado para ser executado somente no Amazon SageMaker Studio. Se você precisar de instruções sobre como abrir um notebook no Amazon SageMaker Studio, consulteCrie ou abra um notebook Amazon SageMaker Studio Classic. Caso seja solicitado que você escolha um kernel, escolha Python 3 (Data Science).