Gerar relatórios de parcialidade em dados de pré-treinamento no SageMaker Studio - Amazon SageMaker

Gerar relatórios de parcialidade em dados de pré-treinamento no SageMaker Studio

O SageMaker Clarify é integrado ao Amazon SageMaker Data Wrangler, o que pode ajudar você a identificar desvio durante a preparação de dados sem precisar escrever seu próprio código. O Data Wrangler fornece uma solução completa para importar, preparar, transformar, destacar e analisar dados com o Amazon SageMaker Studio. Para obter uma visão geral do fluxo de trabalho de preparação de dados do Data Wrangler, consulte Prepare dados de ML com o Amazon SageMaker Data Wrangler.

Você especifica atributos de interesse, como gênero ou idade, e o SageMaker Clarify executa um conjunto de algoritmos para detectar a presença de desvio nesses atributos. Depois que o algoritmo é executado, o SageMaker Clarify fornece um relatório visual com uma descrição das origens e da gravidade do possível desvio para que você possa planejar as etapas de mitigação. Por exemplo, em um conjunto de dados financeiros que contém alguns exemplos de empréstimos comerciais para uma faixa etária em comparação com outras, o SageMaker sinaliza o desequilíbrio para que você possa evitar um modelo que desfavoreça essa faixa etária.

Para analisar e relatar o desvio dos dados

Para começar a usar o Data Wrangler, consulte Conceitos básicos do Data Wrangler.

  1. No Amazon SageMaker Studio Classic, no menu Início ( Black square icon representing a placeholder or empty image. ) do painel esquerdo, navegue até o nó Dados e escolha Data Wrangler. Isso abre a página inicial do Data Wrangler no Studio Classic.

  2. Escolha o botão + Importar dados para criar um novo fluxo.

  3. Na sua página de fluxo, na guia Importar, escolha Amazon S3, navegue até seu bucket do Amazon S3, encontre seu conjunto de dados e escolha Importar.

  4. Após importar seus dados, no gráfico de fluxo na guia Fluxo de dados, escolha o sinal + à direita do nó Tipos de dados.

  5. Escolha Adicionar análise.

  6. Na página Criar análise, escolha Relatório de Desvio para o tipo de análise.

  7. Configure o relatório de desvio fornecendo um nome do relatório, a coluna a ser prevista e se é um valor ou limite, a coluna a ser analisada quanto ao desvio (a faceta) e se é um valor ou limite.

  8. Continue configurando o relatório de desvio escolhendo as métricas de desvio.

    Escolha a métrica de desvio.
  9. Escolha Verificar desvio para gerar e visualizar o relatório de desvio. Role para baixo para visualizar todos os relatórios.

    Gere e visualize o relatório de desvio.
  10. Escolha o cursor à direita da descrição de cada métrica de desvio para ver a documentação que pode ajudar você a interpretar a importância dos valores métricos.

  11. Para visualizar um resumo da tabela dos valores da métrica de desvio, escolha a opção Tabela. Para salvar o relatório, escolha Salvar no canto inferior direito da página. Você pode ver o relatório no gráfico de fluxo na guia Fluxo de dados. Clique duas vezes no relatório para abri-lo.