As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie um fluxo de dados
Use um fluxo do Data Wrangler no SageMaker Canvas, ou fluxo de dados, para criar e modificar um pipeline de preparação de dados. Recomendamos que você use o Data Wrangler para conjuntos de dados maiores que 5 GB.
Para começar, use o procedimento a seguir para importar seus dados em um fluxo de dados.
-
Abra SageMaker a tela.
-
Na navegação à esquerda, escolha Data Wrangler.
-
Escolha Importar e prepare-se.
-
No menu suspenso, escolha Tabular ou Imagem.
-
Em Selecionar uma fonte de dados, escolha sua fonte de dados e selecione os dados que você deseja importar. Você tem a opção de selecionar até 30 arquivos ou uma pasta. Se você já tiver um conjunto de dados importado para o Canvas, escolha o conjunto de dados Canvas como sua fonte. Caso contrário, conecte-se a uma fonte de dados como Amazon S3 ou Snowflake e navegue pelos seus dados. Para obter informações sobre como se conectar a uma fonte de dados ou importar dados, consulte as páginas a seguir:
-
Depois de selecionar os dados que você deseja importar, escolha Avançar.
-
(Opcional) Para a seção Configurações de importação ao importar um conjunto de dados tabular, expanda o menu suspenso Avançado. Você pode especificar as seguintes configurações avançadas para importações de fluxo de dados:
Método de amostragem — Selecione o método de amostragem e o tamanho da amostra que você gostaria de usar. Para obter mais informações sobre como alterar sua amostra, consulte a seçãoEdite a configuração de amostragem do fluxo de dados.
Codificação do arquivo (CSV) — Selecione a codificação do arquivo do seu conjunto de dados.
UTF-8
é o padrão.Ignorar as primeiras linhas — insira o número de linhas que você gostaria de ignorar a importação se tiver linhas redundantes no início do seu conjunto de dados.
Delimitador — Selecione o delimitador que separa cada item em seus dados. Você também pode especificar um delimitador personalizado.
Detecção de várias linhas — Selecione essa opção se quiser que o Canvas analise manualmente todo o seu conjunto de dados para células de várias linhas. O Canvas determina se deve ou não usar o suporte de várias linhas coletando uma amostra de seus dados, mas o Canvas pode não detectar nenhuma célula de várias linhas na amostra. Nesse caso, recomendamos que você selecione a opção Detecção de várias linhas para forçar o Canvas a verificar todo o conjunto de dados em busca de células com várias linhas.
-
Escolha Importar.
Agora você deve ter um novo fluxo de dados e começar a adicionar etapas e análises de transformação.