Crie um fluxo de dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie um fluxo de dados

Use um fluxo do Data Wrangler no SageMaker Canvas, ou fluxo de dados, para criar e modificar um pipeline de preparação de dados. Recomendamos que você use o Data Wrangler para conjuntos de dados maiores que 5 GB.

Para começar, use o procedimento a seguir para importar seus dados em um fluxo de dados.

  1. Abra SageMaker a tela.

  2. Na navegação à esquerda, escolha Data Wrangler.

  3. Escolha Importar e prepare-se.

  4. No menu suspenso, escolha Tabular ou Imagem.

  5. Em Selecionar uma fonte de dados, escolha sua fonte de dados e selecione os dados que você deseja importar. Você tem a opção de selecionar até 30 arquivos ou uma pasta. Se você já tiver um conjunto de dados importado para o Canvas, escolha o conjunto de dados Canvas como sua fonte. Caso contrário, conecte-se a uma fonte de dados como Amazon S3 ou Snowflake e navegue pelos seus dados. Para obter informações sobre como se conectar a uma fonte de dados ou importar dados, consulte as páginas a seguir:

  6. Depois de selecionar os dados que você deseja importar, escolha Avançar.

  7. (Opcional) Para a seção Configurações de importação ao importar um conjunto de dados tabular, expanda o menu suspenso Avançado. Você pode especificar as seguintes configurações avançadas para importações de fluxo de dados:

    • Método de amostragem — Selecione o método de amostragem e o tamanho da amostra que você gostaria de usar. Para obter mais informações sobre como alterar sua amostra, consulte a seçãoEdite a configuração de amostragem do fluxo de dados.

    • Codificação do arquivo (CSV) — Selecione a codificação do arquivo do seu conjunto de dados. UTF-8é o padrão.

    • Ignorar as primeiras linhas — insira o número de linhas que você gostaria de ignorar a importação se tiver linhas redundantes no início do seu conjunto de dados.

    • Delimitador — Selecione o delimitador que separa cada item em seus dados. Você também pode especificar um delimitador personalizado.

    • Detecção de várias linhas — Selecione essa opção se quiser que o Canvas analise manualmente todo o seu conjunto de dados para células de várias linhas. O Canvas determina se deve ou não usar o suporte de várias linhas coletando uma amostra de seus dados, mas o Canvas pode não detectar nenhuma célula de várias linhas na amostra. Nesse caso, recomendamos que você selecione a opção Detecção de várias linhas para forçar o Canvas a verificar todo o conjunto de dados em busca de células com várias linhas.

  8. Escolha Importar.

Agora você deve ter um novo fluxo de dados e começar a adicionar etapas e análises de transformação.