Tutorial: Crie um fluxo de trabalho end-to-end de aprendizado de máquina no SageMaker Canvas - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Tutorial: Crie um fluxo de trabalho end-to-end de aprendizado de máquina no SageMaker Canvas

Este tutorial orienta você em um fluxo de trabalho end-to-end de aprendizado de máquina (ML) usando o Amazon SageMaker Canvas. SageMaker O Canvas é uma interface visual sem código que você pode usar para preparar dados e treinar e implantar modelos de ML. Para o tutorial, você usa um conjunto de dados de NYC táxi para treinar um modelo que prevê o valor da tarifa para uma determinada viagem. Você obtém experiência prática com as principais tarefas de ML, como avaliar a qualidade dos dados e resolver problemas de dados, dividir os dados em conjuntos de treinamento e teste, treinamento e avaliação de modelos, fazer previsões e implantar seu modelo treinado — tudo dentro do aplicativo Canvas. SageMaker

Importante

Este tutorial pressupõe que você ou seu administrador tenham criado uma AWS conta. Para obter informações sobre como criar uma AWS conta, consulte Introdução: Você é um AWS usuário iniciante?

Configuração

Um SageMaker domínio da Amazon é um local centralizado para gerenciar todos os seus SageMaker ambientes e recursos da Amazon. Um domínio atua como um limite virtual para seu trabalho SageMaker, fornecendo isolamento e controle de acesso para seus recursos de aprendizado de máquina (ML).

Para começar a usar o Amazon SageMaker Canvas, você ou seu administrador devem navegar até o SageMaker console e criar um SageMaker domínio da Amazon. Um domínio tem os recursos de armazenamento e computação necessários para você executar o SageMaker Canvas. Dentro do domínio, você configura o SageMaker Canvas para acessar seus buckets do Amazon S3 e implantar modelos. Use o procedimento a seguir para configurar um domínio rápido e criar um aplicativo SageMaker Canvas.

Para configurar o SageMaker Canvas
  1. Navegue até o console do SageMaker.

  2. Na navegação à esquerda, escolha SageMaker Canvas.

  3. Escolha Criar um SageMaker domínio.

  4. Escolha Set up (Configurar). O domínio pode levar alguns minutos para ser configurado.

O procedimento anterior usou uma configuração rápida de domínio. Você pode realizar uma configuração avançada para controlar todos os aspectos da configuração da conta, incluindo permissões, integrações e criptografia. Para obter mais informações sobre uma configuração personalizada, consulteUse a configuração personalizada para a Amazon SageMaker.

Por padrão, a configuração rápida do domínio fornece permissões para implantar modelos. Se você tiver permissões personalizadas configuradas por meio de um domínio padrão e precisar conceder manualmente as permissões de implantação do modelo, consulteGerenciamento de permissões.

Criação de fluxo

O Amazon SageMaker Canvas é uma plataforma de aprendizado de máquina que permite aos usuários criar, treinar e implantar modelos de aprendizado de máquina sem grande experiência em programação ou aprendizado de máquina. Um dos recursos poderosos do Amazon SageMaker Canvas é a capacidade de importar e trabalhar com grandes conjuntos de dados de várias fontes, como o Amazon S3.

Neste tutorial, estamos usando o conjunto de dados de NYC táxi para prever o valor da tarifa para cada viagem usando um fluxo de dados do Amazon SageMaker Canvas Data Wrangler. O procedimento a seguir descreve as etapas para importar uma versão modificada do conjunto de dados de NYC táxi em um fluxo de dados.

nota

Para melhorar o processamento, o SageMaker Canvas importa uma amostra dos seus dados. Por padrão, ele coleta amostras aleatoriamente de 50.000 linhas.

Para importar o conjunto de dados do NYC táxi
  1. Na página inicial do SageMaker Canvas, escolha Data Wrangler.

  2. Escolha Importar dados.

  3. Selecione Tabular.

  4. Escolha a caixa de ferramentas ao lado da fonte de dados.

  5. Selecione Amazon S3 no menu suspenso.

  6. Para o endpoint S3 de entrada, especifique s3://amazon-sagemaker-data-wrangler-documentation-artifacts/canvas-single-file-nyc-taxi-dataset.csv

  7. Escolha Go.

  8. Marque a caixa de seleção ao lado do conjunto de dados.

  9. Escolha Visualizar dados.

  10. Escolha Salvar.

Relatório 1 de qualidade de dados e insights (amostra)

Depois de importar um conjunto de dados para o Amazon SageMaker Canvas, você pode gerar um relatório de qualidade de dados e insights sobre uma amostra dos dados. Use-o para fornecer informações valiosas sobre o conjunto de dados. O relatório faz o seguinte:

  • Avalia a integridade do conjunto de dados

  • Identifica valores ausentes e valores discrepantes

Ele pode identificar outros possíveis problemas que podem afetar o desempenho do modelo. Ele também avalia o poder preditivo de cada recurso em relação à variável alvo, permitindo que você identifique os recursos mais relevantes para o problema que você está tentando resolver.

Podemos usar as informações do relatório para prever o valor da tarifa. Ao especificar a coluna Valor da tarifa como a variável-alvo e selecionar Regressão como o tipo de problema, o relatório analisará a adequação do conjunto de dados para prever valores contínuos, como preços de tarifas. O relatório deve revelar que recursos como ano e hora_do_dia têm baixo poder preditivo para a variável-alvo escolhida, fornecendo informações valiosas.

Use o procedimento a seguir para obter um relatório de qualidade de dados e insights sobre uma amostra de 50.000 linhas do conjunto de dados.

Para obter um relatório sobre uma amostra
  1. Escolha Obter informações de dados na janela pop-up ao lado do nó Tipos de dados.

  2. Em Nome da análise, especifique um nome para o relatório.

  3. Em Tipo de problema, escolha Regressão.

  4. Na coluna Alvo, escolha Valor da tarifa.

  5. Escolha Criar.

Você pode revisar o relatório Data Quality and Insights em uma amostra dos seus dados. O relatório indica que as características do ano e da hora do dia não são preditivas da variável-alvo, valor da tarifa.

Na parte superior da navegação, escolha o nome do fluxo de dados para voltar até ele.

Diminua o ano e a hora do dia

Estamos usando os insights do relatório para eliminar as colunas ano e hora_do_dia para otimizar o espaço de recursos e potencialmente melhorar o desempenho do modelo.

O Amazon SageMaker Canvas fornece uma interface e ferramentas fáceis de usar para realizar essas transformações de dados.

Use o procedimento a seguir para remover as colunas ano e hora_do_dia do conjunto de dados do NYC táxi usando a ferramenta Data Wrangler no Amazon Canvas. SageMaker

  1. Escolha o ícone ao lado de Tipos de dados.

  2. Escolha Adicionar etapa.

  3. Na barra de pesquisa, escreva Coluna Drop.

  4. Escolha Gerenciar colunas.

  5. Escolha Eliminar coluna.

  6. Em Colunas a serem eliminadas, selecione as colunas ano e hora_do_dia.

  7. Escolha Visualizar para ver como sua transformação altera seus dados.

  8. Escolha Adicionar.

Você pode usar o procedimento anterior como base para adicionar todas as outras transformações no SageMaker Canvas.

Relatório 2 de qualidade de dados e insights (conjunto de dados completo)

Para o relatório de insights anterior, usamos uma amostra do conjunto de dados de NYC táxis. Para nosso segundo relatório, estamos realizando uma análise abrangente de todo o conjunto de dados para identificar possíveis problemas que afetam o desempenho do modelo.

Use o procedimento a seguir para criar um relatório de qualidade de dados e insights em um conjunto de dados inteiro.

Para obter um relatório sobre todo o conjunto de dados
  1. Escolha o ícone ao lado do nó Eliminar colunas.

  2. Selecione Obter insights de dados.

  3. Em Nome da análise, especifique um nome para o relatório.

  4. Em Tipo de problema, escolha Regressão.

  5. Na coluna Alvo, escolha Valor da tarifa.

  6. Em Tamanho dos dados, escolha Conjunto de dados completo.

  7. Escolha Criar.

A seguir está uma imagem do relatório de insights:

Linhas duplicadas, alvo distorcido e pontuação muito baixa do modelo rápido estão listadas como InsightSP

Ele mostra os seguintes problemas:

  • Linhas duplicadas

  • Alvo distorcido

Linhas duplicadas podem levar ao vazamento de dados, onde o modelo é exposto aos mesmos dados durante o treinamento e o teste. Eles podem levar a métricas de desempenho excessivamente otimistas. A remoção de linhas duplicadas garante que o modelo seja treinado em instâncias exclusivas, reduzindo o risco de vazamento de dados e melhorando a capacidade de generalização do modelo.

Uma distribuição distorcida da variável-alvo, nesse caso, a coluna Valor da tarifa, pode causar classes desequilibradas, em que o modelo pode se tornar tendencioso para a classe majoritária. Isso pode levar a um desempenho ruim em classes minoritárias, o que é particularmente problemático em cenários em que é importante prever com precisão casos raros ou sub-representados.

Abordando problemas de qualidade de dados

Para resolver esses problemas e preparar o conjunto de dados para modelagem, você pode pesquisar as seguintes transformações e aplicá-las:

  1. Elimine duplicatas usando a transformação Gerenciar linhas.

  2. Lide com valores discrepantes na coluna Valor da tarifa usando os valores discrepantes numéricos de desvio padrão robusto.

  3. Gerencie valores discrepantes nas colunas Distância da viagem e Duração da viagem usando os valores atípicos numéricos do desvio padrão.

  4. Use a categoria Codificar para codificar as colunas ID do código de tarifa, Tipo de pagamento, Sinalizador extra e Sinalizador de pedágio como flutuantes.

Se você não tiver certeza sobre como aplicar uma transformação, consulte Diminua o ano e a hora do dia

Ao abordar esses problemas de qualidade de dados e aplicar as transformações apropriadas, você pode melhorar a adequação do conjunto de dados para modelagem.

Verificando a qualidade dos dados e a precisão rápida do modelo

Depois de aplicar as transformações para resolver problemas de qualidade de dados, como remover linhas duplicadas, criamos nosso relatório final de Qualidade de Dados e Insights. Esse relatório ajuda a verificar se as transformações aplicadas resolveram os problemas e se o conjunto de dados agora está em um estado adequado para modelagem.

Ao revisar o relatório final de qualidade de dados e insights, você não deve esperar que nenhum problema importante de qualidade de dados seja sinalizado. O relatório deve indicar que:

  • A variável alvo não está mais distorcida

  • Não há discrepâncias ou linhas duplicadas

Além disso, o relatório deve fornecer uma pontuação rápida do modelo com base em um modelo de linha de base treinado no conjunto de dados transformado. Essa pontuação serve como um indicador inicial da precisão e desempenho potenciais do modelo.

Use o procedimento a seguir para criar o relatório Data Quality and Insights.

Para criar o relatório Data Quality and Insights
  1. Escolha o ícone ao lado do nó Eliminar colunas.

  2. Selecione Obter insights de dados.

  3. Em Nome da análise, especifique um nome para o relatório.

  4. Em Tipo de problema, escolha Regressão.

  5. Na coluna Alvo, escolha Valor da tarifa.

  6. Em Tamanho dos dados, escolha Conjunto de dados completo.

  7. Escolha Criar.

Divida os dados em conjuntos de treinamento e teste

Para treinar um modelo e avaliar seu desempenho, usamos a transformação de dados Split para dividir os dados em conjuntos de treinamento e teste.

Por padrão, o SageMaker Canvas usa uma divisão aleatória, mas você também pode usar os seguintes tipos de divisões:

  • Ordenado

  • Estratificado

  • Dividir por chave

Você pode alterar a porcentagem de divisão ou adicionar divisões.

Para este tutorial, use todas as configurações padrão na divisão. Você precisa clicar duas vezes no conjunto de dados para ver seu nome. O conjunto de dados de treinamento tem o nome Dataset (Train).

Ao lado do nó de codificação ordinal, aplique a transformação de dados Split.

Modelo de trem

Depois de dividir seus dados, você pode treinar um modelo. Esse modelo aprende com os padrões em seus dados. Você pode usá-lo para fazer previsões ou descobrir insights.

SageMaker O Canvas tem compilações rápidas e compilações padrão. Use uma compilação padrão para treinar o modelo de melhor desempenho em seus dados.

Antes de começar a treinar um modelo, você deve primeiro exportar o conjunto de dados de treinamento como um conjunto de dados do SageMaker Canvas.

Para exportar seu conjunto de dados
  1. Ao lado do nó do conjunto de dados de treinamento, escolha o ícone e selecione Exportar.

  2. Selecione o conjunto de dados do SageMaker Canvas.

  3. Escolha Exportar para exportar o conjunto de dados.

Depois de criar um conjunto de dados, você pode treinar um modelo no conjunto de dados SageMaker Canvas que você criou. Para obter informações sobre como treinar um modelo, consulte Criar um modelo personalizado de previsão numérica ou categórica.

Avalie o modelo e faça previsões

Depois de treinar seu modelo de aprendizado de máquina, é fundamental avaliar seu desempenho para garantir que ele atenda aos seus requisitos e tenha um bom desempenho em dados não vistos. O Amazon SageMaker Canvas fornece uma interface fácil de usar para avaliar a precisão do seu modelo, revisar suas previsões e obter informações sobre seus pontos fortes e fracos. Você pode usar os insights para tomar decisões informadas sobre sua implantação e possíveis áreas de melhoria.

Use o procedimento a seguir para avaliar um modelo antes de implantá-lo.

Como avaliar um modelo
  1. Escolha Meus modelos.

  2. Escolha o modelo que você criou.

  3. Em Versões, selecione a versão correspondente ao modelo.

Agora você pode ver as métricas de avaliação do modelo.

Depois de avaliar o modelo, você pode fazer previsões sobre novos dados. Estamos usando o conjunto de dados de teste que criamos.

Para usar o conjunto de dados de teste para previsões, precisamos convertê-lo em um conjunto de dados do SageMaker Canvas. O conjunto de dados do SageMaker Canvas está em um formato que o modelo pode interpretar.

Use o procedimento a seguir para criar um conjunto de dados do SageMaker Canvas a partir do conjunto de dados de teste.

Para criar um conjunto de dados do SageMaker Canvas
  1. Ao lado do conjunto de dados Dataset (Test), escolha o ícone do rádio.

  2. Selecione Exportar.

  3. Selecione o conjunto de dados do SageMaker Canvas.

  4. Em Nome do conjunto de dados, especifique um nome para o conjunto de dados.

  5. Escolha Exportar.

Use o procedimento a seguir para fazer previsões. Isso pressupõe que você ainda esteja na página Analisar.

Para fazer previsões no conjunto de dados de teste
  1. Escolha Prever.

  2. Escolha Manual.

  3. Selecione o conjunto de dados que você exportou.

  4. Escolha Gerar previsões.

  5. Quando o SageMaker Canvas terminar de gerar as previsões, selecione o ícone à direita do conjunto de dados.

  6. Escolha Visualizar para ver as previsões.

Implantar um modelo

Depois de avaliar seu modelo, você pode implantá-lo em um endpoint. Você pode enviar solicitações ao endpoint para obter previsões.

Use o procedimento a seguir para implantar um modelo. Isso pressupõe que você ainda esteja na página Predict.

Para implantar um modelo
  1. Escolha Implantar.

  2. Escolha Criar implantação.

  3. Escolha Implantar.

Limpeza

Você concluiu o tutorial com sucesso. Para evitar cobranças adicionais, exclua os recursos que você não está usando.

Use o procedimento a seguir para excluir o endpoint que você criou. Isso pressupõe que você ainda esteja na página Implantar.

Para excluir um endpoint
  1. Escolha o botão de rádio à direita de sua implantação.

  2. Selecione Excluir implantação.

  3. Escolha Excluir.

Depois de excluir a implantação, exclua os conjuntos de dados que você criou no SageMaker Canvas. Use o procedimento a seguir para excluir os conjuntos de dados.

Para excluir os conjuntos de dados
  1. Escolha Conjuntos de dados na navegação à esquerda.

  2. Selecione o conjunto de dados que você analisou e o conjunto de dados sintético usado para previsões.

  3. Escolha Excluir.

Para evitar cobranças adicionais, você deve sair do SageMaker Canvas. Para obter mais informações, consulte Sair do Amazon SageMaker Canvas.