As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Exportar dados
Exporte dados para aplicar as transformações do seu fluxo de dados ao conjunto de dados importado completo. Você pode exportar qualquer nó em seu fluxo de dados para os seguintes locais:
-
SageMaker Conjunto de dados Canvas
-
Amazon S3
Se você quiser treinar modelos no Canvas, você pode exportar seu conjunto de dados completo e transformado como um conjunto de dados do Canvas. Se você quiser usar seus dados transformados em fluxos de trabalho de aprendizado de máquina externos ao SageMaker Canvas, você pode exportar seu conjunto de dados para o Amazon S3.
Exportar para um conjunto de dados do Canvas
Use o procedimento a seguir para exportar um conjunto de dados do SageMaker Canvas de um nó em seu fluxo de dados.
Para exportar um nó em seu fluxo como um conjunto de dados do SageMaker Canvas
-
Navegue até seu fluxo de dados.
-
Escolha o ícone de reticências ao lado do nó que você está exportando.
-
No menu de contexto, passe o mouse sobre Exportar e selecione Exportar dados para o conjunto de dados do Canvas.
-
No painel lateral Exportar para o conjunto de dados do Canvas, insira um nome de conjunto de dados para o novo conjunto de dados.
-
Deixe a opção Processar todo o conjunto de dados selecionada se quiser que o SageMaker Canvas processe e salve seu conjunto de dados completo. Desative essa opção para aplicar somente as transformações aos dados de amostra com os quais você está trabalhando no seu fluxo de dados.
-
Escolha Exportar.
Agora você deve poder acessar a página de conjuntos de dados do aplicativo Canvas e ver seu novo conjunto de dados.
Exportar para o Amazon S3.
Ao exportar seus dados para o Amazon S3, você pode escalar para transformar e processar dados de qualquer tamanho. O Canvas processa automaticamente seus dados localmente se a memória do aplicativo puder lidar com o tamanho do seu conjunto de dados. Se o tamanho do seu conjunto de dados exceder a capacidade de memória local de 5 GB, o Canvas iniciará um trabalho remoto em seu nome para provisionar recursos computacionais adicionais e processar os dados mais rapidamente. Por padrão, o Canvas usa o Amazon EMR Serverless para executar esses trabalhos remotos. No entanto, você pode configurar manualmente o Canvas para usar o EMR Serverless ou um trabalho SageMaker de processamento com suas próprias configurações.
nota
Ao executar um trabalho EMR sem servidor, por padrão, o trabalho herda a IAM função, as KMS principais configurações e as tags do seu aplicativo Canvas.
O seguinte resume as opções para trabalhos remotos no Canvas:
-
EMRSem servidor: Essa é a opção padrão que o Canvas usa para trabalhos remotos. EMRO Serverless provisiona e dimensiona automaticamente os recursos de computação para processar seus dados, de forma que você não precise se preocupar em escolher os recursos computacionais certos para sua carga de trabalho. Para obter mais informações sobre o EMR Serverless, consulte o Guia do usuário do EMRServerless.
-
SageMaker Processamento: os trabalhos de SageMaker processamento oferecem opções mais avançadas e controle granular sobre os recursos computacionais usados para processar seus dados. Por exemplo, você pode especificar o tipo e a contagem das instâncias de computação, configurar o trabalho por conta própria VPC e controlar o acesso à rede, automatizar trabalhos de processamento e muito mais. Para obter mais informações sobre como automatizar trabalhos de processamento, consulte. Crie um cronograma para processar automaticamente novos dados Para obter mais informações gerais sobre trabalhos SageMaker de processamento, consulteCargas de trabalho de transformação de dados com processamento SageMaker .
Os seguintes tipos de arquivo são suportados ao exportar para o Amazon S3:
-
CSV
-
Parquet
Para começar, revise os pré-requisitos a seguir.
Pré-requisitos para trabalhos sem servidor EMR
Para criar um trabalho remoto que use recursos EMR sem servidor, você deve ter as permissões necessárias. Você pode conceder permissões por meio das configurações de SageMaker domínio ou perfil de usuário da Amazon, ou pode configurar manualmente sua AWS IAM função de usuário. Para obter instruções sobre como conceder permissões aos usuários para realizar grandes processamentos de dados, consulteConceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML.
Se você não quiser configurar essas políticas, mas ainda precisar processar grandes conjuntos de dados por meio do Data Wrangler, você pode usar uma SageMaker tarefa de processamento como alternativa.
Use os procedimentos a seguir para exportar seus dados para o Amazon S3. Para configurar um trabalho remoto, siga as etapas avançadas opcionais.
Para exportar um nó em seu fluxo para o Amazon S3
-
Navegue até seu fluxo de dados.
-
Escolha o ícone de reticências ao lado do nó que você está exportando.
-
No menu de contexto, passe o mouse sobre Exportar e selecione Exportar dados para o Amazon S3.
-
No painel lateral Exportar para o Amazon S3, você pode alterar o nome do conjunto de dados para o novo conjunto de dados.
-
Para a localização do S3, insira a localização do Amazon S3 para a qual você deseja exportar o conjunto de dados. Você pode inserir o S3URI, o alias ou o local ARN do S3 ou o ponto de acesso do S3. Para obter mais informações sobre pontos de acesso, consulte Gerenciamento do acesso a dados com pontos de acesso do Amazon S3 no Guia do usuário do Amazon S3.
-
(Opcional) Para as configurações avançadas, especifique valores para os seguintes campos:
-
Tipo de arquivo — O formato de arquivo dos dados exportados.
-
Delimitador — O delimitador usado para separar valores no arquivo.
-
Compressão — O método de compactação usado para reduzir o tamanho do arquivo.
-
Número de partições — O número de arquivos do conjunto de dados que o Canvas grava como saída do trabalho.
-
Escolha colunas — Você pode escolher um subconjunto de colunas dos dados para incluir nas partições.
-
-
Deixe a opção Processar todo o conjunto de dados selecionada se quiser que o Canvas aplique suas transformações de fluxo de dados em todo o conjunto de dados e exporte o resultado. Se você desmarcar essa opção, o Canvas aplicará somente as transformações à amostra do seu conjunto de dados usado no fluxo de dados interativo do Data Wrangler.
nota
Se você exportar apenas uma amostra dos seus dados, o Canvas processa seus dados no aplicativo e não cria um trabalho remoto para você.
-
Deixe a opção Configuração automática da tarefa selecionada se quiser que o Canvas determine automaticamente se a tarefa deve ser executada usando a memória do aplicativo Canvas ou uma tarefa EMR sem servidor. Se você desmarcar essa opção e configurar manualmente sua tarefa, poderá optar por usar uma tarefa EMR sem servidor ou uma SageMaker tarefa de processamento. Para obter instruções sobre como configurar uma tarefa EMR sem servidor ou de SageMaker processamento, consulte a seção após esse procedimento antes de exportar seus dados.
-
Escolha Exportar.
Os procedimentos a seguir mostram como definir manualmente as configurações de trabalho remoto para EMR Serverless ou SageMaker Processing ao exportar seu conjunto de dados completo para o Amazon S3.
Depois de exportar seus dados, você deve encontrar o conjunto de dados totalmente processado no local especificado do Amazon S3.