Prepare os dados para a construção do modelo - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Prepare os dados para a construção do modelo

nota

Agora você pode fazer a preparação avançada de dados no SageMaker Canvas com o Data Wrangler, que fornece uma interface de linguagem natural e mais de 300 transformações integradas. Para obter mais informações, consulte Preparação de dados.

Seu conjunto de dados de machine learning pode exigir preparação de dados antes de você compilar seu modelo. Talvez você queira limpar seus dados devido a vários problemas, que podem incluir valores ausentes ou valores atípicos, e realizar engenharia de atributos para melhorar a precisão do seu modelo. O Amazon SageMaker Canvas fornece transformações de dados de ML com as quais você pode limpar, transformar e preparar seus dados para a criação de modelos. Você pode usar essas transformações em seus conjuntos de dados sem nenhum código. SageMaker O Canvas adiciona as transformações que você usa à receita do modelo, que é um registro da preparação de dados feita em seus dados antes de criar o modelo. Qualquer transformação de dados que você usa apenas modifica os dados de entrada para a compilação do modelo e não modifica sua fonte de dados original.

A pré-visualização do seu conjunto de dados mostra as primeiras 100 linhas do conjunto de dados. Se seu conjunto de dados tiver mais de 20.000 linhas, o Canvas pega uma amostra aleatória de 20.000 linhas e pré-visualiza as primeiras 100 linhas dessa amostra. Você só pode pesquisar e especificar valores das linhas pré-visualizadas e a funcionalidade de filtro somente filtra as linhas pré-visualizadas e não o conjunto de dados inteiro.

As seguintes transformações estão disponíveis no SageMaker Canvas para você preparar seus dados para a construção.

nota

Você só pode usar transformações avançadas para modelos criados em conjuntos de dados tabulares. Modelos de previsão de texto de várias categorias também são excluídos.

Destacar coluna

Você pode excluir uma coluna da construção do seu modelo soltando-a na guia Construir do aplicativo SageMaker Canvas. Desmarque a coluna que você deseja descartar e ela não será incluída ao compilar o modelo.

nota

Se você soltar colunas e depois fizer previsões em lote com seu modelo, o SageMaker Canvas adicionará as colunas descartadas de volta ao conjunto de dados de saída disponível para download. No entanto, o SageMaker Canvas não adiciona as colunas descartadas para modelos de séries temporais.

Filtrar linhas

A funcionalidade de filtro filtra as linhas pré-visualizadas (as primeiras 100 linhas do seu conjunto de dados) de acordo com as condições que você especificar. A filtragem de linhas cria uma pré-visualização temporária dos dados e não afeta a compilação do modelo. Você pode filtrar para visualizar linhas que tenham valores ausentes, contenham valores atípicos ou atendam às condições personalizadas em uma coluna de sua escolha.

Filtrar linhas por valores ausentes

Valores ausentes são uma ocorrência comum em conjuntos de dados de machine learning. Se você tiver linhas com valores nulos ou vazios em determinadas colunas, talvez queira filtrar e pré-visualizar essas linhas.

Para filtrar os valores ausentes dos dados pré-visualizados, faça o seguinte.

  1. Na guia Criar do aplicativo SageMaker Canvas, escolha Filtrar por linhas ( Filter icon in the SageMaker Canvas application. ).

  2. Escolha a Coluna em que você deseja verificar se há valores ausentes.

  3. Para a Operação, escolha Está ausente.

SageMaker O Canvas filtra as linhas que contêm valores ausentes na coluna selecionada e fornece uma visualização prévia das linhas filtradas.

Captura de tela do filtro pela operação de valores ausentes no aplicativo SageMaker Canvas.

Filtrar linhas por valores atípicos

Valores discrepantes, ou valores raros na distribuição e no alcance de seus dados, podem afetar negativamente a precisão do modelo e levar a tempos de construção mais longos. SageMaker O Canvas permite detectar e filtrar linhas que contêm valores discrepantes em colunas numéricas. Você pode escolher definir valores atípicos com desvios padrão ou com um intervalo personalizado.

Para filtrar valores atípicos em seus dados, faça o seguinte.

  1. Na guia Criar do aplicativo SageMaker Canvas, escolha Filtrar por linhas ( Filter icon in the SageMaker Canvas application. ).

  2. Escolha a Coluna em que você deseja verificar se há valores atípicos.

  3. Para a Operação, escolha É valor atípico.

  4. Configure o Intervalo de valores atípicos como Desvio padrão ou Intervalo personalizado.

  5. Se você escolher Desvio padrão, especifique um valor SD (desvio padrão) de 1–3. Se você escolher Intervalo personalizado, selecione Percentil ou Número e, em seguida, especifique os valores Mínimo e Máximo.

A opção Desvio padrão detecta e filtra valores atípicos em colunas numéricas usando a média e o desvio padrão. Você especifica o número de desvios padrão em que um valor deve variar da média para ser considerado um valor atípico. Por exemplo, se você especificar 3 para SD, um valor deve ter queda maior que 3 desvios padrão da média para ser considerado um valor atípico.

A opção de Intervalo personalizado detecta e filtra valores atípicos em colunas numéricas usando valores mínimos e máximos. Use esse método se você conhece seus valores limite que delimitam valores atípicos. Você pode definir o Tipo do intervalo como Percentil ou Número. Se você escolher Percentil, os valores Mínimo e Máximo deverão ser o mínimo e o máximo do intervalo de percentis (0-100) que você deseja permitir. Se você escolher Número, os valores Mínimo e Máximo devem ser os valores numéricos mínimo e máximo que você deseja filtrar nos dados.

Captura de tela da operação de filtragem por valores discrepantes no aplicativo Canvas. SageMaker

Filtrar linhas por valores personalizados

Você pode filtrar por linhas com valores que atendam às condições personalizadas. Por exemplo, talvez você queira pré-visualizar linhas com um valor de preço maior que 100 antes de removê-las. Com essa funcionalidade, você pode filtrar linhas que excedam o limite definido e pré-visualizar os dados filtrados.

Para usar a funcionalidade de filtro personalizado, faça o seguinte.

  1. Na guia Criar do aplicativo SageMaker Canvas, escolha Filtrar por linhas ( Filter icon in the SageMaker Canvas application. ).

  2. Escolha a Coluna que você deseja verificar.

  3. Selecione o tipo de Operação que você deseja usar e, em seguida, especifique os valores para a condição selecionada.

Para a Operação, escolha uma das opções a seguir. Observe que as operações disponíveis dependem do tipo de dados da coluna que você escolher. Por exemplo, não é possível criar uma operação is greater than para uma coluna contendo valores de texto.

Operation Tipos de dados compatíveis Tipo de recurso suportado Função

É igual a

Numérico, Texto

Binário, Categóricos

Filtra as linhas em que o valor na Coluna é igual aos valores que você especifica.

Não é igual a

Numérico, Texto

Binário, Categóricos

Filtra linhas em que o valor na Coluna não é igual aos valores que você especifica.

É menor que

Numérico

N/D

Filtra linhas em que o valor na Coluna é menor que o valor especificado.

É menor que ou igual a

Numérico

N/D

Filtra linhas em que o valor em Coluna é menor que ou igual ao valor especificado por você.

É maior que

Numérico

N/D

Filtra as linhas em que o valor na Coluna é maior do que o valor especificado por você.

É maior ou igual a

Numérico

N/D

Filtra linhas em que o valor na Coluna é maior que ou igual ao valor especificado por você.

Está entre

Numérico

N/D

Filtra linhas em que o valor na Coluna está entre ou é igual a dois valores que você especifica.

Contém

Texto

Categóricos

Filtra as linhas em que o valor na Coluna contém valores que você especifica.

Inicia com

Texto

Categóricos

Filtra as linhas em que o valor na Coluna começa com um valor especificado por você.

Termina com

Categóricos

Categóricos

Filtra as linhas em que o valor na Coluna termina com um valor especificado por você.

Depois de definir a operação de filtro, o SageMaker Canvas atualiza a visualização do conjunto de dados para mostrar os dados filtrados.

Captura de tela da operação de filtro por valores personalizados no aplicativo SageMaker Canvas.

Funções e operadores

Você pode usar funções e operadores matemáticos para explorar e distribuir seus dados. Você pode usar as funções suportadas pelo SageMaker Canvas ou criar sua própria fórmula com seus dados existentes e criar uma nova coluna com o resultado da fórmula. Por exemplo, você pode adicionar os valores correspondentes de duas colunas e salvar o resultado em uma nova coluna.

Você pode agrupar instruções para criar funções mais complexas. Veja a seguir alguns exemplos de funções agrupadas que você pode usar.

  • Para calcularBMI, você pode usar a funçãoweight / (height ^ 2).

  • Para classificar as idades, você pode usar a função Case(age < 18, 'child', age < 65, 'adult', 'senior').

Você pode especificar funções no estágio de preparação de dados antes de compilar seu modelo. Para usar uma função, faça o seguinte.

  • Na guia Criar do aplicativo SageMaker Canvas, escolha Exibir tudo e, em seguida, escolha Fórmula personalizada para abrir o painel Fórmula personalizada.

  • No painel Fórmula personalizada, você pode escolher uma Fórmula para adicionar à sua Receita Modelo. Cada fórmula é aplicada a todos os valores nas colunas que você especificar. Para fórmulas que aceitam duas ou mais colunas como argumentos, use colunas com tipos de dados correspondentes; caso contrário, você receberá um erro ou null valores na nova coluna.

  • Depois de especificar uma fórmula, adicione um nome de coluna no campo Nome da nova coluna. SageMaker O Canvas usa esse nome para a nova coluna que é criada.

  • (Opcional) Escolha Pré-Visualizar para ver sua transformação.

  • Para adicionar a função à sua receita modelo, escolha Adicionar.

SageMaker O Canvas salva o resultado da sua função em uma nova coluna usando o nome que você especificou em Nome da nova coluna. Você pode visualizar ou remover funções do painel Receita modelo.

SageMaker O Canvas suporta os seguintes operadores para funções. Você pode usar o formato de texto ou o formato em linha para especificar sua função.

Operador Descrição Tipos de dados compatíveis Formato de texto Formato em linha

Adicionar

Retorna a soma dos valores

Numérico

Adicionar (vendas1, vendas2)

vendas1 + vendas2

Subtrair

Retorna a diferença entre os valores

Numérico

Subtrair (vendas1, vendas2)

vendas1 ‐ vendas2

Multiplicar

Retorna o produto dos valores

Numérico

Multiplicar (vendas1, vendas2)

vendas1 * vendas2

Dividir

Retorna o quociente dos valores

Numérico

Dividir (vendas1, vendas2)

vendas1 / vendas2

Mod

Retorna o resultado do operador do módulo (o restante após a divisão dos dois valores)

Numérico

Mod (vendas1, vendas2)

vendas1 % vendas2

Abs

Retorna o valor absoluto do valor.

Numérico

Abs (vendas 1)

N/D

Negar

Retorna o negativo do valor

Numérico

Negar (c1)

-c1

Exp

Retorna e (número de Euler) elevado à potência do valor

Numérico

Exp (vendas1)

N/D

Log

Retorna o logaritmo (base 10) do valor.

Numérico

Registro (vendas1)

N/D

Ln

Retorna o logaritmo natural (base e) do valor

Numérico

Ln (vendas 1)

N/D

Pow

Retorna o valor elevado a uma potência

Numérico

Pow (vendas 1, 2)

vendas1 ^ 2

If (Se)

Retorna um rótulo verdadeiro ou falso com base em uma condição especificada por você

Booleano, numérico, texto

If(sales1>7000, 'truelabel, 'falselabel')

N/D

Ou

Retorna um valor booleano de se um dos valores ou condições especificados é verdadeiro ou não

Booleano

Ou (preço integral, desconto)

preço integral || desconto

E

Retorna um valor booleano de se dois dos valores ou condições especificados são verdadeiros ou não

Booleano

E (vendas1, vendas2)

vendas1 && vendas2

Não

Retorna um valor booleano que é o oposto do valor ou condições especificados

Boolean

Não (vendas1)

!sales1

Caso

Retorna um valor booleano com base em declarações condicionais (retorna c1 se cond1 for verdadeiro, retorna c2 se cond2 for verdadeiro, senão retorna c3)

Booleano, numérico, texto

Caso (cond1, c1, cond2, c2, c3)

N/D

Equal

Retorna um valor booleano de se dois valores são iguais

Booleano, numérico, texto

N/D

c1 = c2

c1 == c2

Not equal

Retorna um valor booleano de se dois valores não são iguais

Booleano, numérico, texto

N/D

c1! = c2

Menor que

Retorna um valor booleano de se c1 é menor que c2

Booleano, numérico, texto

N/D

c1 < c2

Maior que

Retorna um valor booleano de se c1 é maior que c2

Booleano, numérico, texto

N/D

c1 > c2

Menor ou igual a

Retorna um valor booleano de se c1 é menor ou igual a c2

Booleano, numérico, texto

N/D

c1 <= c2

Maior ou igual a

Retorna um valor booleano de se c1 é maior ou igual a c2

Booleano, numérico, texto

N/D

c1 >= c2

SageMaker O Canvas também suporta operadores agregados, que podem realizar operações como calcular a soma de todos os valores ou encontrar o valor mínimo em uma coluna. Você pode usar operadores agregados em combinação com operadores padrão em suas funções. Por exemplo, para calcular a diferença de valores em relação à média, você pode usar a funçãoAbs(height – avg(height)). SageMaker O Canvas suporta os seguintes operadores agregados.

Operador de agregação Descrição Formato Exemplo

soma

Retorna a soma de todos os valores em uma coluna

soma

soma (c1)

mínimo

Retorna o valor mínimo de uma coluna

min

minuto (c2)

máximo

Retorna o valor máximo de uma coluna

max

max(c3)

média

Retorna o valor médio de uma coluna

avg

avg(c4)

std

Retorna o desvio padrão da amostra de uma coluna

std

std(c1)

stddev

Retorna o desvio padrão dos valores em uma coluna

stddev

stddev(c1)

variância

Retorna a variância imparcial dos valores em uma coluna

variância

variância (c1)

approx_count_distinct

Retorna o número aproximado de itens distintos em uma coluna

approx_count_distinct

approx_count_distinct(c1)

contagem

Retorna o número de itens em uma coluna

contagem

count(c1)

first

Retorna o primeiro valor de uma coluna

first

first(c1)

last

Retorna o último valor de uma coluna

last

last(c1)

stddev_pop

Retorna o desvio padrão da população de uma coluna

stddev_pop

stddev_pop(c1)

variance_pop

Retorna a variância populacional dos valores em uma coluna

variance_pop

variance_pop(c1)

Gerenciar linhas

Com a transformação Gerenciar linhas, você pode realizar a classificação, a reprodução aleatória e remover linhas de dados do conjunto de dados.

Classificar linhas

Para classificar as linhas em um conjunto de dados por uma determinada coluna, faça o seguinte.

  1. Na guia Criar do aplicativo SageMaker Canvas, escolha Gerenciar linhas e, em seguida, escolha Classificar linhas.

  2. Em Classificar coluna, escolha a coluna pela qual você deseja classificar.

  3. Em Ordem de classificação, escolha Crescente ou Decrescente.

  4. Escolha Adicionar para adicionar a transformação à Receita do modelo.

Embaralhar linhas

Para embaralhar aleatoriamente as linhas em um conjunto de dados, faça o seguinte.

  1. Na guia Construir do aplicativo SageMaker Canvas, escolha Gerenciar linhas e, em seguida, escolha Misturar linhas.

  2. Escolha Adicionar para adicionar a transformação à Receita do modelo.

Descartar linhas duplicadas

Para remover linhas duplicadas em um conjunto de dados, faça o seguinte.

  1. Na guia Criar do aplicativo SageMaker Canvas, escolha Gerenciar linhas e, em seguida, escolha Eliminar linhas duplicadas.

  2. Escolha Adicionar para adicionar a transformação à Receita do modelo.

Remover linhas por valores ausentes

Valores ausentes são uma ocorrência comum em conjuntos de dados de aprendizado de máquina e podem afetar a precisão do modelo. Use essa transformação se quiser eliminar linhas com valores nulos ou vazios em determinadas colunas.

Para remover linhas que contêm valores ausentes em uma coluna especificada, faça o seguinte.

  1. Na guia Construir do aplicativo SageMaker Canvas, escolha Gerenciar linhas.

  2. Escolha Eliminar linhas por valores ausentes.

  3. Escolha Adicionar para adicionar a transformação à Receita do modelo.

SageMaker O Canvas remove as linhas que contêm valores ausentes na coluna que você selecionou. Depois de remover as linhas do conjunto de dados, o SageMaker Canvas adiciona a transformação na seção Receita do modelo. Se você remover a transformação da seção Receita do modelo, as linhas retornarão ao seu conjunto de dados.

Captura de tela da operação de remoção de linhas por valores ausentes no aplicativo SageMaker Canvas.

Remover linhas por valores atípicos

Valores atípicos, ou valores raros na distribuição e no intervalo de seus dados podem afetar negativamente a precisão do modelo e levar a tempos de compilação mais longos. Com o SageMaker Canvas, você pode detectar e remover linhas que contêm valores discrepantes em colunas numéricas. Você pode escolher definir valores atípicos com desvios padrão ou com um intervalo personalizado.

Para remover valores atípicos de seus dados, faça o seguinte.

  1. Na guia Construir do aplicativo SageMaker Canvas, escolha Gerenciar linhas.

  2. Escolha Eliminar linhas por valores atípicos.

  3. Escolha a Coluna em que você deseja verificar se há valores atípicos.

  4. Defina o operador para desvio padrão, intervalo numérico personalizado ou intervalo quantil personalizado.

  5. Se você escolher Desvio padrão, especifique um valor de Desvios padrão (desvio padrão) de 1 a 3. Se você escolher Intervalo numérico personalizado ou Intervalo de quantil personalizado, especifique os valores mínimo e máximo (números para intervalos numéricos ou percentis entre 0 e 100% para intervalos de quantil).

  6. Escolha Adicionar para adicionar a transformação à Receita do modelo.

A opção Desvio padrão detecta e remove as discrepâncias em colunas numéricas usando a média e o desvio padrão. Você especifica o número de desvios padrão em que um valor deve variar da média para ser considerado um valor atípico. Por exemplo, se você especificar 3 para Desvios padrão, um valor deve estar em valor maior que 3 desvios padrão da média para ser considerado um valor atípico.

As opções Intervalo numérico e Intervalo quantil personalizado detectam e removem as discrepâncias em colunas numéricas usando valores mínimos e máximos. Use esse método se você conhece seus valores limite que delimitam valores atípicos. Se você escolher um intervalo numérico, os valores Min e Max devem ser os valores numéricos mínimo e máximo que você deseja permitir nos dados. Se você escolher um intervalo de quantil, os valores Min e Max devem ser o mínimo e o máximo do intervalo de percentis (0–100) que você deseja permitir.

Depois de remover as linhas do conjunto de dados, o SageMaker Canvas adiciona a transformação na seção Receita do modelo. Se você remover a transformação da seção Receita do modelo, as linhas retornarão ao seu conjunto de dados.

Captura de tela da operação de remoção de linhas por valores discrepantes no aplicativo Canvas. SageMaker

Remover linhas por valores personalizados

Você pode remover linhas com valores que atendam às condições personalizadas. Por exemplo, talvez você queira excluir todas as linhas com um valor de preço maior que 100 ao compilar seu modelo. Com essa transformação, você pode criar uma regra que remove todas as linhas que excedem o limite que você definiu.

Para usar a transformação de remoção personalizada, faça o seguinte:

  1. Na guia Construir do aplicativo SageMaker Canvas, escolha Gerenciar linhas.

  2. Escolha Descartar linhas por fórmula.

  3. Escolha a Coluna que você deseja verificar.

  4. Selecione o tipo de Operação que você deseja usar e, em seguida, especifique os valores para a condição selecionada.

  5. Escolha Adicionar para adicionar a transformação à Receita do modelo.

Para a Operação, escolha uma das opções a seguir. Observe que as operações disponíveis dependem do tipo de dados da coluna que você escolher. Por exemplo, não é possível criar uma operação is greater than para uma coluna contendo valores de texto.

Operation Tipos de dados compatíveis Tipo de recurso suportado Função

É igual a

Numérico, Texto

Binário, Categóricos

Remove as linhas em que o valor em Coluna é igual aos valores que você especifica.

Não é igual a

Numérico, Texto

Binário, Categóricos

Remove as linhas em que o valor em Coluna não é igual aos valores que você especifica.

É menor que

Numérico

N/D

Remove as linhas em que o valor em Coluna é menor que o valor especificado.

É menor que ou igual a

Numérico

N/D

Remove linhas em que o valor em Coluna é menor que ou igual ao valor especificado por você.

É maior que

Numérico

N/D

Remove as linhas em que o valor em Coluna é maior do que o valor especificado por você.

É maior ou igual a

Numérico

N/D

Remove linhas em que o valor em Coluna é maior que ou igual ao valor especificado por você.

Está entre

Numérico

N/D

Remove as linhas em que o valor na Coluna está entre ou é igual a dois valores que você especifica.

Contém

Texto

Categóricos

Remove as linhas nas quais o valor na Coluna contém os valores especificados por você.

Inicia com

Texto

Categóricos

Remove as linhas nas quais o valor na Coluna começa com um valor especificado por você.

Termina com

Texto

Categóricos

Remove as linhas nas quais o valor na Coluna termina com um valor especificado por você.

Depois de remover as linhas do conjunto de dados, o SageMaker Canvas adiciona a transformação na seção Receita do modelo. Se você remover a transformação da seção Receita do modelo, as linhas retornarão ao seu conjunto de dados.

Captura de tela da operação de remoção de linhas por valores personalizados no aplicativo SageMaker Canvas.

Renomear colunas

Com a transformação renomear colunas, você pode renomear colunas em seus dados. Quando você renomeia uma coluna, o SageMaker Canvas altera o nome da coluna na entrada do modelo.

Você pode renomear uma coluna em seu conjunto de dados clicando duas vezes no nome da coluna na guia Construir do aplicativo SageMaker Canvas e inserindo um novo nome. Pressionar a tecla Enter envia a alteração e clicar em qualquer lugar fora da entrada cancela a alteração. Você também pode renomear uma coluna clicando no ícone Mais opções ( Vertical ellipsis icon representing a menu or more options. ), localizado no final da linha na visualização em lista ou no final da célula do cabeçalho na visualização em grade e escolhendo Renomear.

O nome da coluna não pode ter mais de 32 caracteres nem ter sublinhados duplos (__) e você não pode renomear uma coluna com o mesmo nome de outra coluna. Você também não pode renomear uma coluna descartada.

A captura de tela a seguir mostra como renomear uma coluna clicando duas vezes no nome da coluna.

Captura de tela da renomeação de uma coluna com o método de clique duplo no SageMaker aplicativo Canvas.

Quando você renomeia uma coluna, o SageMaker Canvas adiciona a transformação na seção Receita do modelo. Se você remover a transformação da seção Receita do modelo, a coluna retornará ao nome original.

Gerenciar colunas

Com as transformações a seguir, você pode alterar o tipo de dados das colunas e substituir valores ausentes ou valores discrepantes por colunas específicas. SageMaker O Canvas usa os tipos ou valores de dados atualizados ao criar seu modelo, mas não altera seu conjunto de dados original. Observe que, se você descartou uma coluna do seu conjunto de dados usando a transformação Destacar coluna, não poderá substituir valores nessa coluna.

Substituir valores ausentes

Valores ausentes são uma ocorrência comum em conjuntos de dados de aprendizado de máquina e podem afetar a precisão do modelo. Você pode optar por descartar linhas com valores ausentes, mas seu modelo será mais preciso se você escolher substituir os valores ausentes. Com essa transformação, você pode substituir valores ausentes nas colunas numéricas pela média ou mediana dos dados em uma coluna, ou também pode especificar um valor personalizado com o qual substituir valores ausentes. Para colunas não numéricas, você pode substituir valores ausentes com o modo (valor mais comum) da coluna ou por um valor personalizado.

Use essa transformação se quiser substituir os valores nulos ou vazios em determinadas colunas. Para substituir valores ausentes em uma coluna especificada, faça o seguinte.

  1. Na guia Construir do aplicativo SageMaker Canvas, escolha Gerenciar colunas.

  2. Escolha Substituir valores ausentes.

  3. Escolha a Coluna na qual você deseja substituir valores ausentes.

  4. Defina o Modo como Manual para substituir valores ausentes pelos valores especificados por você. Com a configuração Automática (padrão), o SageMaker Canvas substitui os valores ausentes pelos valores imputados que melhor se ajustam aos seus dados. Esse método de atribuição é feito automaticamente para cada construção de modelo, a menos que você especifique o modo Manual.

  5. Defina o valor Substituir por valor:

    • Se sua coluna for numérica, selecione Média, Mediana ou Personalizada. A Média substitui valores ausentes pela média da coluna e a Mediana substitui valores ausentes pela mediana da coluna. Se você escolher Personalizado, deverá especificar um valor personalizado que deseja usar para substituir valores ausentes.

    • Se sua coluna for numérica, selecione Modo ou Personalizada. O Modo substitui valores ausentes pelo modo ou pelo valor mais comum da coluna. Em Personalizado, especifique um valor personalizado que você deseja usar para substituir valores ausentes.

  6. Escolha Adicionar para adicionar a transformação à Receita do modelo.

Depois de substituir os valores ausentes no conjunto de dados, o SageMaker Canvas adiciona a transformação na seção Receita do modelo. Se você remover a transformação da seção Receita do modelo, os valores ausentes retornarão ao conjunto de dados.

Captura de tela da operação de substituição de valores ausentes no aplicativo SageMaker Canvas.

Substituir valores atípicos

Valores discrepantes, ou valores raros na distribuição e no alcance de seus dados, podem afetar negativamente a precisão do modelo e levar a tempos de construção mais longos. SageMaker O Canvas permite que você detecte valores discrepantes em colunas numéricas e substitua os valores discrepantes por valores que estejam dentro de um intervalo aceito em seus dados. Você pode optar por definir valores atípicos com desvios padrão ou com um intervalo personalizado e pode substituir os valores atípicos pelos valores mínimo e máximo no intervalo aceito.

Para substituir valores atípicos em seus dados, faça o seguinte.

  1. Na guia Construir do aplicativo SageMaker Canvas, escolha Gerenciar colunas.

  2. Escolha Substituir valores atípicos.

  3. Escolha a Coluna na qual você deseja substituir valores atípicos.

  4. Em Definir valores atípicos, escolha Desvio padrão, Intervalo numérico personalizado ou Intervalo quantil personalizado.

  5. Se você escolher Desvio padrão, especifique um valor de Desvios padrão (desvio padrão) de 1 a 3. Se você escolher Intervalo numérico personalizado ou Intervalo de quantil personalizado, especifique os valores mínimo e máximo (números para intervalos numéricos ou percentis entre 0 e 100% para intervalos de quantil).

  6. Em Substituir por, selecione Intervalo mínimo/máximo.

  7. Escolha Adicionar para adicionar a transformação à Receita do modelo.

A opção Desvio padrão detecta valores atípicos em colunas numéricas usando a média e o desvio padrão. Você especifica o número de desvios padrão em que um valor deve variar da média para ser considerado um valor atípico. Por exemplo, se você especificar 3 para desvios padrão, um valor deve cair mais de 3 desvios padrão da média para ser considerado um valor atípico. SageMaker O Canvas substitui os valores atípicos pelo valor mínimo ou máximo no intervalo aceito. Por exemplo, se você configurar os desvios padrão para incluir apenas valores de 200 a 300, o SageMaker Canvas alterará um valor de 198 para 200 (o mínimo).

As opções de Intervalo numérico personalizado e Intervalo quantil personalizado detectam valores atípicos em colunas numéricas usando valores mínimos e máximos. Use esse método se você conhece seus valores limite que delimitam valores atípicos. Se você escolher um intervalo numérico, os valores mínimo e máximo devem ser os valores numéricos mínimo e máximo que você deseja permitir. SageMaker O Canvas substitui quaisquer valores que estejam fora do mínimo e máximo pelos valores mínimo e máximo. Por exemplo, se seu intervalo permitir apenas valores de 1 a 100, o SageMaker Canvas alterará um valor de 102 para 100 (o máximo). Se você escolher um intervalo de quantil, os valores mínimo e máximo devem ser o mínimo e o máximo do intervalo de percentis (0 a 100) que você deseja permitir.

Depois de substituir os valores no conjunto de dados, o SageMaker Canvas adiciona a transformação na seção Receita do modelo. Se você remover a transformação da seção Receita do modelo, os valores originais retornarão ao conjunto de dados.

Captura de tela da operação de substituição de valores atípicos no aplicativo Canvas. SageMaker

Alterar tipo de dados

SageMaker O Canvas fornece a capacidade de alterar o tipo de dados de suas colunas entre numérico, texto e data e hora, além de exibir o tipo de recurso associado a esse tipo de dados. Um tipo de dados refere-se ao formato dos dados e o modo como eles são armazenados, enquanto o tipo de recurso refere-se à característica dos dados usados em algoritmos de machine learning, como binário ou categórico. Isso dá a você a flexibilidade de alterar manualmente o tipo de dados em suas colunas com base nas funcionalidades. A capacidade de escolher o tipo de dados certo garante a integridade e a precisão dos dados antes da compilação de modelos. Esses tipos de dados são usados na compilação de modelos.

nota

Atualmente, a alteração do tipo de recurso (por exemplo, de binário para categórico) não é suportada.

A tabela a seguir lista todos os tipos de dados com suporte no Canvas.

Tipo de dados Descrição Exemplo

Numérico

Os dados numéricos representam valores numéricos

1, 2, 3

1,1, 1,2. 1.3

Texto

Os dados de texto representam sequências de caracteres, como nomes ou descrições

A, B, C, D

maçã, banana, laranja

1A! , 2A! , 3A!

Datetime

Os dados de datetime representam datas e horas no formato da data e hora.

2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00

A tabela a seguir lista todos os tipos de recurso com suporte no Canvas.

Tipo de recurso Descrição Exemplo

Binário

Os recursos binários representam dois valores possíveis

0, 1, 0, 1, 0 (2 valores distintos)

verdadeiro, falso, verdadeiro (2 valores distintos)

Categóricos

Recursos categóricos representam categorias ou grupos distintos

maçã, banana, laranja, maçã (3 valores distintos)

A, B, C, D, E, A, D, C (5 valores distintos)

Para modificar o tipo de dados de uma coluna em um conjunto de dados, faça o seguinte.

  1. Na guia Criar do aplicativo SageMaker Canvas, vá até a Visualização em coluna ou Visualização em grade e selecione a lista suspensa Tipo de dados para a coluna específica.

  2. Na lista suspensa Tipo de dados, escolha o tipo de dados para o qual converter. A captura de tela a seguir mostra a lista suspensa.

    O menu suspenso de conversão de tipo de dados de uma coluna, mostrado na guia Criar.
  3. Em Coluna, escolha ou verifique a coluna para a qual você deseja alterar o tipo de dados.

  4. Em Novo tipo de dados, escolha ou verifique o novo tipo de dados para o qual você deseja converter.

  5. Se o Novo tipo de dados for Datetime ou Numeric, escolha uma das seguintes opções em Identificar valores inválidos:

    1. Substituir por valor vazio — Valores inválidos são substituídos por um valor em branco

    2. Excluir linhas — As linhas com um valor inválido são removidas do conjunto de dados

    3. Substituir por valor personalizado — Valores inválidos são substituídos pelo valor personalizado que você especificar.

  6. Escolha Adicionar para adicionar a transformação à Receita do modelo.

O tipo de dados da sua coluna agora deve estar atualizado.

Preparar dados de séries temporais

Use as seguintes funcionalidades para preparar seus dados de séries temporais para criar modelos de previsão de séries temporais.

Reamostragem de dados de séries temporais

Ao reamostrar dados de séries temporais, você pode estabelecer intervalos regulares para as observações em seu conjunto de dados de séries temporais. Isso é particularmente útil ao trabalhar com dados de séries temporais contendo observações com espaçamento irregular. Por exemplo, você pode usar a reamostragem para transformar um conjunto de dados com observações registradas em intervalos de uma hora, duas horas e três horas em um intervalo regular de uma hora entre as observações. Algoritmos de previsão exigem que as observações sejam feitas em intervalos regulares.

Para reamostrar dados de séries temporais, faça o seguinte.

  1. Na guia Construir do aplicativo SageMaker Canvas, escolha Série temporal.

  2. Escolha Reamostrar.

  3. Para a Coluna de data e hora, escolha a coluna à qual você deseja aplicar a transformação. Você só pode selecionar colunas do tipo Datetime.

  4. Na seção Configurações de frequência, escolha uma Frequência e uma Taxa. Frequência é a unidade de frequência e Taxa é o intervalo da unidade de frequência a ser aplicada à coluna. Por exemplo, escolher Calendar Day entre Valor de frequência e 1 para a Taxa define o intervalo a ser aumentado a cada 1 dia do calendário, como 2023-03-26 00:00:00, 2023-03-27 00:00:00 e 2023-03-28 00:00:00. Consulte a tabela após esse procedimento para obter uma lista completa dos Valores de frequência.

  5. Escolha Adicionar para adicionar a transformação à Receita do modelo.

A tabela a seguir lista todos os tipos de frequência que você pode selecionar ao reamostrar dados de séries temporais.

Frequência Descrição Valores de exemplo (supondo que a taxa seja 1)

Dia útil

Reamostre as observações na coluna datetime para 5 dias úteis da semana (Segunda-feira, Terça-feira, Quarta-feira, Quinta-feira e Sexta-feira)

2023-03-24 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-03 00:00:00

Dia do calendário

Reamostre as observações na coluna datetime para todos os 7 dias da semana (Segunda-feira, Terça-feira, Quarta-feira, Quinta-feira, Sexta-feira, Sábado e Domingo)

2023-03-26 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-01 00:00:00

Semana

Observações de reamostragem na coluna de datetime para o primeiro dia de cada semana

2023-03-13 00:00:00

2023-03-20 00:00:00

2023-03-27 00:00:00

2023-04-03 00:00:00

Mês

Observações de reamostragem na coluna datetime para o primeiro dia de cada mês

2023-03-01 00:00:00

2023-04-01 00:00:00

2023-05-01 00:00:00

2023-06-01 00:00:00

Trimestre anual

Observações de reamostragem na coluna datetime para o primeiro dia de cada trimestre

2023-03-31 00:00:00

2023-06-30 00:00:00

2023-09-30 00:00:00

2023-12-31 00:00:00

Ano

Observações de reamostragem na coluna datetime para o último dia de cada ano

2022-12-31 0:00:00

2023-12-31 00:00:00

2024-12-31 00:00:00

Hora

Observações de reamostragem na coluna datetime para o cada hora de cada dia

2023-03-24 00:00:00

2023-03-24 01:00:00

2023-03-24 02:00:00

2023-03-24 03:00:00

Minuto

Observações de reamostragem na coluna datetime para o cada minuto de cada hora

2023-03-24 00:00:00

2023-03-24 00:01:00

2023-03-24 00:02:00

2023-03-24 00:03:00

Segundo

Observações de reamostragem na coluna datetime para o cada segundo de cada minuto

2023-03-24 00:00:00

2023-03-24 00:00:01

2023-03-24 00:00:02

2023-03-24 00:00:03

Ao aplicar a transformação de reamostragem, você pode usar a opção Avançada para especificar como os valores resultantes do restante das colunas (exceto a coluna de data e hora) em seu conjunto de dados são modificados. Isso pode ser obtido especificando a metodologia de reamostragem, que pode ser a redução ou o aumento de amostras para colunas numéricas e não numéricas.

A Downsampling (redução de amostras) aumenta o intervalo entre as observações no conjunto de dados. Por exemplo, se você reduzir a resolução de observações feitas a cada hora ou a cada duas horas, cada observação em seu conjunto de dados será feita a cada duas horas. Os valores de outras colunas das observações por hora são agregados em um valor único usando um método de combinação. A tabela a seguir mostra um exemplo de redução da amostragem de dados de séries temporais usando a média como método de combinação. Os dados são reduzidos de duas em duas horas para cada hora.

A tabela a seguir mostra as leituras de temperatura por hora durante um dia antes da redução da amostragem.

Timestamp Temperatura (Celsius)

12:00 pm

30

1:00 am

32

2:00 am

35

3:00 am

32

4:00 am

30

A tabela a seguir mostra as leituras de temperatura após a redução da amostragem para cada duas horas.

Timestamp Temperatura (Celsius)

12:00 pm

30

2:00 am

33.5

2:00 am

35

4:00 am

32,5

Para reduzir a resolução dos dados de série temporal, faça o seguinte:

  1. Expanda a seção Avançado na transformação Resample.

  2. Escolha combinação não numérica para especificar o método de combinação para colunas não numéricas. Consulte a tabela a seguir para obter uma lista completa de métodos de combinação.

  3. Escolha Combinação numérica para especificar o método de combinação para colunas numéricas. Consulte a tabela a seguir para obter uma lista completa de métodos de combinação.

Se você não especificar métodos de combinação, os valores padrão são Most Common para combinação não numérica e Mean para combinação numérica. A tabela a seguir lista os métodos para combinação numérica e não numérica.

Metodologia de redução da amostragem Método de combinação Descrição

Combinação não numérica

Mais comum

Agregue valores na coluna não numérica pelo valor que ocorre com mais frequência

Combinação não numérica

Last

Valores agregados na coluna não numérica pelo último valor na coluna

Combinação não numérica

First

Valores agregados na coluna não numérica pelo último valor na coluna

Combinação numérica

Média

Agregue valores na coluna numérica tomando a média de todos os valores na coluna

Combinação numérica

Mediana

Agregue valores na coluna numérica tomando a média de todos os valores na coluna

Combinação numérica

Mín.

Agregue valores na coluna numérica tomando o valor mínimo de todos os valores na coluna

Combinação numérica

Máx

Agregue valores na coluna numérica tomando o valor máximo de todos os valores na coluna

Combinação numérica

Soma

Agregue valores na coluna numérica adicionando todos os valores na coluna

Combinação numérica

Quantil

Agregue valores na coluna numérica tomando o quantil de todos os valores na coluna

O Upsampling (aumento da amostragem) reduz o intervalo entre as observações no conjunto de dados. Por exemplo, se você aumentar as observações de amostragem feitas a cada duas horas em observações de hora em hora, os valores de outras colunas das observações de hora em hora são interpoladas a partir daquelas que foram feitas a cada duas horas.

Para aumentar a amostragem de dados de séries temporais, faça o seguinte.

  1. Expanda a seção Avançado na transformação Resample.

  2. Escolha Estimativa não numérica para especificar o método de estimativa para colunas não numéricas. Consulte a tabela após esse procedimento para obter uma lista completa dos métodos.

  3. Escolha Estimativa numérica para especificar o método de estimativa para colunas numéricas. Consulte a tabela a seguir para obter uma lista completa de métodos.

  4. (Opcional) Escolha Coluna ID para especificar a IDs coluna que contém as observações da série temporal. Especifique essa opção se seu conjunto de dados tiver duas séries temporais. Se você tiver uma coluna representando somente uma série temporal, não especifique um valor para esse campo. Por exemplo, você pode ter um conjunto de dados com as colunas id e purchase. A coluna id tem os seguintes valores: [1, 2, 2, 1]. A coluna purchase tem os seguintes valores [$2, $3, $4, $1]. Portanto, o conjunto de dados tem duas séries temporais — uma série temporal é: 1: [$2, $1] e a outra série temporal é 2: [$3, $4].

Se você não especificar métodos de estimativa, os valores padrão são Forward Fill para estimativa não numérica e Linear para estimativa numérica. A tabela a seguir lista os métodos de estimativa.

Metodologia de aumento da amostragem Método de estimativa Descrição

Estimativa não numérica

Preenchimento de avanço

Interpole valores na coluna não numérica tomando os valores consecutivos depois de todos os valores na coluna

Estimativa não numérica

Preenchimento retroativo

Interpole valores na coluna não numérica tomando os valores consecutivos antes de todos os valores na coluna

Estimativa não numérica

Continuar ausente

Interpole valores na coluna não numérica mostrando valores vazios

Estimativa numérica

Linear, Tempo, Índice, Zero, S-Linear, Mais Próximo, Quadrático, Cúbico, Baricêntrico, Polinômio, Krogh, Polinômio por Partes, Spline, P-chip, Akima, Spline Cúbico, a partir de Derivadas

Interpole valores na coluna numérica usando o interpolador especificado. Para obter informações sobre métodos de interpolação, consulte pandas. DataFrame.interpolate na documentação do pandas.

A captura de tela a seguir mostra as configurações avançadas com os campos para redução e aumento da amostragem preenchidos.

O aplicativo Canvas, com o painel lateral de reamostragem de séries temporais mostrando as opções avançadas.

Use a extração datetime

Com a transformação de extração datetime, você pode extrair valores de uma coluna de datetime para uma coluna separada. Por exemplo, se você tiver uma coluna contendo datas de compras, você poderá extrair o valor do mês em uma coluna separada e usar a nova coluna ao compilar seu modelo. Você também pode extrair vários valores para separar colunas com uma única transformação.

Sua coluna datetime deve usar um formato da data e hora com suporte. Para obter uma lista dos formatos que o SageMaker Canvas suporta, consultePrevisões de séries temporais no Amazon Canvas SageMaker . Se seu conjunto de dados não usar um dos formatos compatíveis, atualize-o para usar um formato de carimbo de data/hora compatível e reimporte-o para o SageMaker Amazon Canvas antes de criar seu modelo.

Para realizar uma extração de datetime, faça o seguinte.

  1. Na guia Criar do aplicativo SageMaker Canvas, na barra de transformações, escolha Exibir tudo.

  2. Escolha Extrair recursos.

  3. Escolha a coluna de data e hora da qual você deseja extrair valores.

  4. Em Valores, selecione um ou mais valores para extrair da coluna. Os valores que você pode extrair de uma coluna de data e hora são Ano, Mês, Dia, Hora, Semana do ano, Dia do ano e Trimestre.

  5. (Opcional) Escolha Pré-Visualização para pré-visualizar os resultados da transformação.

  6. Escolha Adicionar para adicionar a transformação à Receita do modelo.

SageMaker O Canvas cria uma nova coluna no conjunto de dados para cada um dos valores que você extrai. Exceto para valores de ano, o SageMaker Canvas usa uma codificação baseada em 0 para os valores extraídos. Por exemplo, se você extrair o valor do Mês, Janeiro será extraído como 0 e Fevereiro será extraído como 1.

Captura de tela da caixa de extração de data e hora no aplicativo SageMaker Canvas.

Você pode ver a transformação listada na seção Receita do modelo. Se você remover a transformação da seção Receita do modelo, as novas colunas serão removidas do conjunto de dados.