Como os modelos personalizados funcionam - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como os modelos personalizados funcionam

Use o Amazon SageMaker Canvas para criar um modelo personalizado no conjunto de dados que você importou. Use o modelo que você criou para fazer previsões sobre novos dados. SageMaker O Canvas usa as informações do conjunto de dados para criar até 250 modelos e escolher aquele com melhor desempenho.

Quando você começa a criar um modelo, o Canvas recomenda automaticamente um ou mais tipos de modelo. Os tipos de modelo se enquadram em uma das seguintes categorias:

  • Previsão numérica - conhecida como regressão no machine learning. Use o tipo de modelo de previsão numérica quando quiser fazer previsões para dados numéricos. Por exemplo, talvez você queira prever o preço das casas com base em características como a metragem quadrada da casa.

  • Previsão categórica - conhecida como classificação no machine learning. Quando quiser categorizar os dados em grupos, use os tipos de modelo de previsão categórica:

    • Previsão de 2 categorias - use o tipo de modelo de previsão de 2 categorias (também conhecido como classificação binária no machine learning) quando você tiver duas categorias que deseja prever para seus dados. Por exemplo, para determinar se é provável que um cliente se afaste.

    • Previsão de mais de 3 categorias - use o tipo de modelo de previsão de mais de 3 categorias (também conhecido como classificação de várias classes no machine learning) quando você tiver três ou mais categorias que deseja prever para seus dados. Por exemplo, para prever o status do empréstimo de um cliente com base em características como pagamentos anteriores.

  • Previsão de séries temporais - use previsões de séries temporais quando quiser fazer previsões em um período de tempo. Por exemplo, para prever o número de itens que você venderá no próximo trimestre. Para obter informações sobre previsões de séries temporais, consulte Previsões de séries temporais no Amazon SageMaker Canvas.

  • Previsão de imagem - use o tipo de modelo de previsão de imagem com rótulo único (também conhecido como classificação de imagem com rótulo único no machine learning) quando quiser atribuir rótulos às imagens. Por exemplo, para classificar tipos diferentes de defeitos de fabricação em imagens do seu produto.

  • Previsão de texto - use o tipo de modelo de previsão de texto de várias categorias (também conhecido como classificação de texto de várias classes no machine learning) quando quiser atribuir rótulos a passagens de texto. Por exemplo, você pode ter um conjunto de dados de avaliações de clientes sobre um produto e deseja determinar se os clientes gostaram ou não do produto. Você pode fazer com que seu modelo preveja se uma determinada passagem de texto é Positive, Negative ou Neutral.

Para obter uma tabela dos tipos de dados de entrada compatíveis com cada tipo de modelo, consulte Modelos personalizados.

Para cada modelo de dados tabular que você cria (que inclui modelos numéricos, categóricos, de previsão de séries temporais e de previsão de texto), você escolhe a Coluna de destino. A Coluna de destino é a coluna que contém as informações que você deseja prever. Por exemplo, se você estiver criando um modelo para prever se as pessoas cancelaram suas assinaturas, a Coluna de destino contém pontos de dados que indicam yes ou no em relação ao status de cancelamento de alguém.

Para modelos de previsão de imagem, você cria o modelo com um conjunto de dados de imagens às quais rótulos foram atribuídos. Para as imagens sem rótulos que você fornece, o modelo prevê um rótulo. Por exemplo, se você estiver criando um modelo para prever se uma imagem é um gato ou um cachorro, você fornece imagens rotuladas como gatos ou cachorros ao criar o modelo. Então, o modelo pode aceitar imagens não rotuladas e predizê-las como cães ou gatos.

O que acontece quando você cria um modelo

Para criar seu modelo, você pode escolher uma Criação rápida ou uma Criação padrão. A Criação rápida tem um tempo de criação menor, mas a Criação padrão geralmente tem uma precisão maior.

Para modelos de previsão tabular e de séries temporais, o Canvas usa a redução da resolução para reduzir o tamanho dos conjuntos de dados maiores que 5 GB ou 30 GB, respectivamente. A tela reduz a resolução com o método de amostragem estratificada. A tabela abaixo lista o tamanho da redução da amostra por tipo de modelo. Para controlar o processo de amostragem, você pode usar o Data Wrangler no Canvas para obter amostras usando sua técnica de amostragem preferida. Para dados de séries temporais, você pode reamostrar para agregar pontos de dados. Para obter mais informações sobre amostragem, consulteAmostragem. Para obter mais informações sobre a reamostragem de dados de séries temporais, consulte. Reamostragem de dados de séries temporais

Se você optar por fazer uma construção rápida em um conjunto de dados com mais de 50.000 linhas, o Canvas amostrará seus dados em até 50.000 linhas para um tempo menor de treinamento do modelo.

A tabela a seguir resume as principais características do processo de construção do modelo, incluindo os tempos médios de construção para cada modelo e tipo de construção, o tamanho da redução da resolução ao criar modelos com grandes conjuntos de dados e o número mínimo e máximo de pontos de dados que você deve ter para cada tipo de construção.

Limite Previsão numérica e categórica Previsão de séries temporais Previsão de imagem Previsão de texto

Tempo de construção rápido

De 2 a 20 minutos

De 2 a 20 minutos

De 15 a 30 minutos

De 15 a 30 minutos

Tempo de construção padrão

De 2 a 4 horas

De 2 a 4 horas

De 2 a 5 horas

De 2 a 5 horas

Diminuir o tamanho da amostra (o tamanho reduzido de um grande conjunto de dados após a redução da resolução do Canvas)

5 GB

30 GB

N/D

N/D

Número mínimo de entradas (linhas) para Criações rápidas

2 categorias: 500 linhas

3 ou mais categorias, numéricas, séries temporais: N/D

N/D

N/D

N/D

Número mínimo de entradas (linhas, imagens ou documentos) para Criações padrão

250

50

50

N/D

Número máximo de entradas (linhas, imagens ou documentos) para Criações rápidas

N/D

N/D

5000

7500

Número máximo de entradas (linhas, imagens ou documentos) para Criações padrão

N/D

150.000

180.000

N/D

Número máximo de colunas

1.000

1.000

N/D

N/D

Se você se desconectar durante a execução de uma Criação rápida, sua criação poderá ser interrompida até que você faça login novamente. Quando você faz login novamente, o Canvas retoma a Criação rápida.

O Canvas prevê valores usando as informações no restante do conjunto de dados, dependendo do tipo de modelo:

  • Para a previsão categórica, o Canvas coloca cada linha em uma das categorias listadas na Coluna de destino.

  • Para a predição numérica, o Canvas usa as informações no conjunto de dados para prever os valores numéricos na Coluna de destino.

  • Para a previsão de séries temporais, o Canvas usa dados históricos para prever valores para a Coluna de destino no futuro.

  • Para a previsão de imagens, o Canvas usa imagens que receberam rótulos para prever rótulos para imagens não rotuladas.

  • Para a previsão de texto, o Canvas analisa dados de texto aos quais foram atribuídos rótulos para prever rótulos para passagens de texto não rotuladas.

Atributos adicionais para ajudar você a criar seu modelo

Antes de criar seu modelo, você pode usar o Data Wrangler no Canvas para preparar seus dados usando mais de 300 transformações e operadores integrados. O Data Wrangler suporta transformações para conjuntos de dados tabulares e de imagem. Além disso, você pode se conectar a fontes de dados fora do Canvas, criar trabalhos para aplicar transformações em todo o seu conjunto de dados e exportar seus dados totalmente preparados e limpos para uso em fluxos de trabalho de ML fora do Canvas. Para obter mais informações, consulte Preparação de dados.

Para ver visualizações e análises para explorar seus dados e determinar quais recursos incluir em seu modelo, você pode usar as análises integradas do Data Wrangler. Você também pode acessar um relatório de qualidade de dados e insights que destaca possíveis problemas com seu conjunto de dados e fornece recomendações sobre como corrigi-los. Para obter mais informações, consulte Realizar análise exploratória de dados () EDA.

Além da funcionalidade mais avançada de preparação e exploração de dados fornecida pelo Data Wrangler, o Canvas fornece alguns recursos básicos que você pode usar:

Para conjuntos de dados tabulares com várias colunas (como conjuntos de dados para criar tipos de modelos de previsão categórica, numérica ou de séries temporais), você pode ter linhas com pontos de dados ausentes. Enquanto o Canvas constrói o modelo, ele adiciona automaticamente os valores ausentes. O Canvas usa os valores do seu conjunto de dados para realizar uma aproximação matemática dos valores ausentes. Para obter a maior precisão do modelo, recomendamos adicionar os dados ausentes, se você puder encontrá-los. Observe que o atributo de dados ausentes não é compatível com modelos de previsão de texto ou de previsão de imagem.

Conceitos básicos

Para começar a criar um modelo personalizado, consulte Criar um modelo e siga o procedimento para o tipo de modelo que você deseja criar.