Como o processamento de dados funciona no Data Wrangler - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como o processamento de dados funciona no Data Wrangler

Ao trabalhar com dados de forma interativa em um fluxo de SageMaker dados do Amazon Data Wrangler, o Amazon SageMaker Canvas só aplica as transformações a um conjunto de dados de amostra para você visualizar. Depois de terminar seu fluxo de dados no SageMaker Canvas, você pode processar todos os seus dados e salvá-los em um local adequado para seus fluxos de trabalho de aprendizado de máquina.

Há várias opções de como proceder depois de terminar de transformar seus dados no Data Wrangler:

  • Crie um modelo. Você pode criar um modelo Canvas, onde você começa diretamente a criar um modelo com seus dados preparados. Você pode criar um modelo depois de processar todo o conjunto de dados ou exportando apenas os dados de amostra com os quais você trabalhou no Data Wrangler. O Canvas salva seus dados processados (o conjunto de dados inteiro ou os dados de amostra) como um conjunto de dados do Canvas.

    Recomendamos que você use seus dados de amostra para iterações rápidas, mas use todos os dados quando quiser treinar seu modelo final. Ao criar modelos tabulares, conjuntos de dados maiores que 5 GB são automaticamente reduzidos para 5 GB e, para modelos de previsão de séries temporais, conjuntos de dados maiores que 30 GB são reduzidos para 30 GB.

    Para saber mais sobre como criar um modelo, consulteComo os modelos personalizados funcionam.

  • Exporte os dados. Você pode exportar seus dados para uso em fluxos de trabalho de aprendizado de máquina. Ao optar por exportar seus dados, você tem várias opções:

    • Você pode salvar seus dados no aplicativo Canvas como um conjunto de dados. Para obter mais informações sobre os tipos de arquivo suportados para conjuntos de dados do Canvas e requisitos adicionais ao importar dados para o Canvas, consulte. Criar um conjunto de dados

    • Você pode salvar seus dados no Amazon S3. Dependendo da disponibilidade de memória do Canvas, seus dados são processados no aplicativo e depois exportados para o Amazon S3. Se o tamanho do seu conjunto de dados exceder o que o Canvas pode processar, então, por padrão, o Canvas usa um trabalho EMR sem servidor para escalar para várias instâncias computacionais, processar seu conjunto de dados completo e exportá-lo para o Amazon S3. Você também pode configurar manualmente um trabalho SageMaker de processamento para ter um controle mais granular sobre os recursos computacionais usados para processar seus dados.

  • Exporte um fluxo de dados. Talvez você queira salvar o código do seu fluxo de dados para poder modificar ou executar suas transformações fora do Canvas. O Canvas oferece a opção de salvar suas transformações de fluxo de dados como código Python em um notebook Jupyter, que você pode exportar para o Amazon S3 para uso em outro lugar em seus fluxos de trabalho de aprendizado de máquina.

Quando você exporta seus dados de um fluxo de dados e os salva como um conjunto de dados do Canvas ou para o Amazon S3, o Canvas cria um novo nó de destino em seu fluxo de dados, que é um nó final que mostra onde seus dados processados estão armazenados. Você pode adicionar outros nós de destino ao seu fluxo se quiser realizar várias operações de exportação. Por exemplo, você pode exportar os dados de diferentes pontos em seu fluxo de dados para aplicar apenas algumas das transformações, ou você pode exportar dados transformados para diferentes locais do Amazon S3. Para obter mais informações sobre como adicionar ou editar um nó de destino, consulte Adicionar nós de destino Editar um nó de destino e.

Para obter mais informações sobre como configurar um cronograma com EventBridge a Amazon para processar e exportar automaticamente seus dados de acordo com um cronograma, consulteCrie um cronograma para processar automaticamente novos dados.