Use SageMaker Clarify para explicar e detectar preconceitos - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Use SageMaker Clarify para explicar e detectar preconceitos

Este tópico descreve como entender a imparcialidade e a explicabilidade do modelo e como explicar e detectar preconceitos usando o Amazon Clarify. SageMaker Você pode configurar um trabalho de processamento do SageMaker Clarify para calcular métricas de viés e atribuições de recursos e gerar relatórios para explicar o modelo. SageMaker Os trabalhos de processamento do Clarify são implementados usando uma imagem de contêiner especializada do SageMaker Clarify. As instruções a seguir mostram como configurar, executar e solucionar problemas de uma tarefa de processamento do SageMaker Clarify e como configurar uma análise.

O que é imparcialidade e explicabilidade do modelo para previsões de aprendizado de máquina?

Os modelos de aprendizado de máquina (ML) estão ajudando a tomar decisões em áreas como serviços financeiros, saúde, educação e recursos humanos. Os formuladores de políticas, reguladores e defensores aumentaram a conscientização sobre os desafios éticos e políticos impostos pelo ML e pelos sistemas baseados em dados. O Amazon SageMaker Clarify pode ajudar você a entender por que seu modelo de ML fez uma previsão específica e se esse viés afeta essa previsão durante o treinamento ou a inferência. SageMaker O Clarify também fornece ferramentas que podem ajudar você a criar modelos de aprendizado de máquina menos tendenciosos e mais compreensíveis. SageMaker O Clarify também pode gerar modelos de relatórios de governança que você pode fornecer às equipes de risco e conformidade e aos reguladores externos. Com o SageMaker Clarify, você pode fazer o seguinte:

  • Detecte o viés e ajude a explicar as previsões do seu modelo.

  • Identifique os tipos de viés nos dados de pré-treinamento.

  • Identifique os tipos de viés nos dados pós-treinamento que podem surgir durante o treinamento ou quando seu modelo está em produção.

SageMaker O Clarify ajuda a explicar como seus modelos fazem previsões usando atribuições de recursos. Ele também pode monitorar modelos de inferência que estão em produção tanto para o viés quanto para o desvio de atribuição de recursos. Essas informações podem ajudá-lo nas seguintes áreas:

  • Regulatório — Os formuladores de políticas e outros reguladores podem se preocupar com os impactos discriminatórios das decisões que usam resultados de modelos de ML. Por exemplo, um modelo de ML pode codificar preconceitos e influenciar uma decisão automatizada.

  • Negócios — Os domínios regulamentados podem precisar de explicações confiáveis sobre como os modelos de ML fazem previsões. A explicabilidade do modelo pode ser particularmente importante para indústrias que dependem de confiabilidade, segurança e conformidade. Isso pode incluir serviços financeiros, recursos humanos, assistência médica e transporte automatizado. Por exemplo, os pedidos de empréstimo podem precisar fornecer explicações sobre como os modelos de ML fizeram determinadas previsões para agentes de crédito, analistas e clientes.

  • Ciência de dados — cientistas de dados e engenheiros de ML podem depurar e melhorar modelos de ML quando podem determinar se um modelo está fazendo inferências com base em recursos ruidosos ou irrelevantes. Eles também podem entender as limitações de seus modelos e os modos de falha que seus modelos podem encontrar.

Para uma postagem no blog que mostra como arquitetar e criar um modelo completo de aprendizado de máquina para reclamações fraudulentas de automóveis que integre o SageMaker Clarify a um SageMaker pipeline, consulte o Architect e crie o ciclo de vida completo do aprendizado de máquina com: AWS Uma demonstração da Amazon. end-to-end SageMaker Esta postagem do blog discute como avaliar e mitigar o viés pré-treinamento e pós-treinamento e como os recursos afetam a previsão do modelo. A postagem do blog contém links para exemplos de código para cada tarefa no ciclo de vida do ML.

Melhores práticas para avaliar a imparcialidade e a explicabilidade no ciclo de vida do ML

Justiça como processo — As noções de preconceito e justiça dependem de sua aplicação. A medição do viés e a escolha das métricas de viés podem ser orientadas por considerações sociais, legais e outras considerações não técnicas. A adoção bem-sucedida de abordagens de ML conscientes da imparcialidade inclui criar consenso e alcançar a colaboração entre as principais partes interessadas. Isso pode incluir equipes de produtos, políticas, jurídicas, de engenharia, de IA/ML, usuários finais e comunidades.

Imparcialidade e explicabilidade por design no ciclo de vida do ML — considere a imparcialidade e a explicabilidade durante cada estágio do ciclo de vida do ML. Esses estágios incluem formação de problemas, construção de conjuntos de dados, seleção de algoritmos, processo de treinamento de modelos, processo de teste, implantação e monitoramento e feedback. É importante ter as ferramentas certas para fazer essa análise. Recomendamos fazer as seguintes perguntas durante o ciclo de vida do ML:

  • O modelo incentiva ciclos de feedback que podem produzir resultados cada vez mais injustos?

  • Um algoritmo é uma solução ética para o problema?

  • Os dados de treinamento são representativos de grupos diferentes?

  • Há preconceitos nos rótulos ou nos recursos?

  • Os dados precisam ser modificados para mitigar o viés?

  • As restrições de imparcialidade precisam ser incluídas na função objetivo?

  • O modelo foi avaliado usando métricas de imparcialidade relevantes?

  • Existem efeitos desiguais entre os usuários?

  • O modelo foi implantado em uma população para a qual não foi treinado ou avaliado?

Melhores práticas para o processo de avaliação da equidade e da explicabilidade do modelo.

Guia para a documentação de SageMaker explicações e preconceitos

O viés pode ocorrer e ser medido nos dados antes e depois do treinamento de um modelo. SageMaker O Clarify pode fornecer explicações para as previsões do modelo após o treinamento e para os modelos implantados na produção. SageMaker O Clarify também pode monitorar modelos em produção para detectar qualquer variação em suas atribuições explicativas de linha de base e calcular linhas de base quando necessário. A documentação para explicar e detectar preconceitos usando o SageMaker Clarify está estruturada da seguinte forma:

Como funcionam os trabalhos de processamento do SageMaker Clarify

Você pode usar o SageMaker Clarify para analisar seus conjuntos de dados e modelos quanto à explicabilidade e ao viés. Um trabalho de processamento do SageMaker Clarify usa o contêiner de processamento do SageMaker Clarify para interagir com um bucket do Amazon S3 contendo seus conjuntos de dados de entrada. Você também pode usar o SageMaker Clarify para analisar um modelo de cliente implantado em um endpoint de SageMaker inferência.

O gráfico a seguir mostra como uma tarefa de processamento do SageMaker Clarify interage com seus dados de entrada e, opcionalmente, com um modelo de cliente. Essa interação depende do tipo específico de análise que está sendo realizada. O contêiner de processamento SageMaker Clarify obtém o conjunto de dados de entrada e a configuração para análise de um bucket S3. Para determinados tipos de análise, incluindo análise de recursos, o contêiner de processamento do SageMaker Clarify deve enviar solicitações ao contêiner modelo. Em seguida, ele recupera as previsões do modelo a partir da resposta que o contêiner do modelo envia. Depois disso, o contêiner de processamento do SageMaker Clarify calcula e salva os resultados da análise no bucket do S3.

SageMaker O Clarify pode analisar seus dados ou um modelo de cliente em busca de explicabilidade e viés.

Você pode executar uma tarefa de processamento do SageMaker Clarify em vários estágios do ciclo de vida do fluxo de trabalho de aprendizado de máquina. SageMaker O Clarify pode ajudá-lo a calcular os seguintes tipos de análise:

  • Métricas de viés antes do treinamento. Essas métricas podem ajudá-lo a entender o viés em seus dados para que você possa resolvê-lo e treinar seu modelo em um conjunto de dados mais justo. Consulte Medir o desvio de pré-treinamento para obter informações sobre métricas de viés antes do treinamento. Para executar um trabalho para analisar métricas de viés antes do treinamento, você deve fornecer o conjunto de dados e um arquivo de configuração de JSON análise para. Configurar a análise

  • Métricas de viés pós-treinamento. Essas métricas podem ajudar você a entender qualquer viés introduzido por um algoritmo, opções de hiperparâmetros ou qualquer viés que não tenha sido aparente no início do fluxo. Para obter mais informações sobre métricas de viés pós-treinamento, consulteMeça os dados pós-treinamento e o desvio de modelo. SageMaker O Clarify usa as previsões do modelo, além dos dados e rótulos, para identificar o viés. Para executar um trabalho para analisar métricas de viés pós-treinamento, você deve fornecer o conjunto de dados e um arquivo de configuração de JSON análise. A configuração deve incluir o nome do modelo ou do endpoint.

  • Valores bem definidos, que podem ajudar você a entender o impacto que seu recurso tem sobre o que seu modelo prevê. Para obter mais informações sobre valores Shapely, consulte. Atributos de recursos que usam valores de Shapley Esse recurso exige um modelo treinado.

  • Gráficos de dependência parcial (PDPs), que podem ajudá-lo a entender o quanto sua variável-alvo prevista mudaria se você variasse o valor de um recurso. Para obter mais informações sobrePDPs, consulte Análise de gráficos de dependência parcial (PDPs) Esse recurso requer um modelo treinado.

SageMaker Esclareça as previsões do modelo de necessidades para calcular métricas de viés pós-treinamento e atribuições de recursos. Você pode fornecer um endpoint ou o SageMaker Clarify criará um endpoint efêmero usando o nome do seu modelo, também conhecido como endpoint sombra. O contêiner SageMaker Clarify exclui o endpoint de sombra após a conclusão dos cálculos. Em um nível alto, o contêiner SageMaker Clarify conclui as seguintes etapas:

  1. Validação de entradas e parâmetros.

  2. Criação do endpoint de sombra (se um nome de modelo for fornecido).

  3. Carregamento do conjunto de dados de entrada em um quadro de dados.

  4. Obtenção das previsões do modelo a partir do endpoint, se necessário.

  5. Cálculo das métricas de desvio e atribuições de recursos.

  6. Exclusão do endpoint de sombra.

  7. Geração dos resultados da análise.

Depois que a tarefa de processamento do SageMaker Clarify for concluída, os resultados da análise serão salvos no local de saída que você especificou no parâmetro de saída de processamento da tarefa. Esses resultados incluem um JSON arquivo com métricas de viés e atribuições globais de recursos, um relatório visual e arquivos adicionais para atribuições de recursos locais. Você pode baixar os resultados do local de saída e visualizá-los.

Para obter informações adicionais sobre métricas de viés, explicabilidade e como interpretá-las, consulte Saiba como o Amazon SageMaker Clarify ajuda a detectar preconceitos, Fairness Measures for Machine Learning in Finance e o whitepaper Amazon AI Fairness and Explainability.

Cadernos de exemplo

As seções a seguir contêm cadernos para ajudá-lo a começar a usar o SageMaker Clarify, para usá-lo para tarefas especiais, incluindo aquelas dentro de um trabalho distribuído, e para visão computacional.

Conceitos básicos

Os exemplos de cadernos a seguir mostram como usar o SageMaker Clarify para começar com tarefas de explicabilidade e viés de modelo. Essas tarefas incluem criar um trabalho de processamento, treinar um modelo de aprendizado de máquina (ML) e monitorar as previsões do modelo:

Casos especiais

Os cadernos a seguir mostram como usar o SageMaker Clarify para casos especiais, inclusive dentro de seu próprio contêiner e para tarefas de processamento de linguagem natural:

Verificou-se que esses notebooks são executados no Amazon SageMaker Studio Classic. Se você precisar de instruções sobre como abrir um notebook no Studio Classic, consulteCrie ou abra um notebook Amazon SageMaker Studio Classic. Caso seja solicitado que você escolha um kernel, escolha Python 3 (Data Science).