As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Exporte dados para aplicar as transformações do seu fluxo de dados ao conjunto de dados importado completo. Você pode exportar qualquer nó em seu fluxo de dados para os seguintes locais:
-
SageMaker Conjunto de dados Canvas
-
Amazon S3
Se você quiser treinar modelos no Canvas, você pode exportar seu conjunto de dados completo e transformado como um conjunto de dados do Canvas. Se você quiser usar seus dados transformados em fluxos de trabalho de aprendizado de máquina externos ao SageMaker Canvas, você pode exportar seu conjunto de dados para o Amazon S3.
Exportar para um conjunto de dados do Canvas
Use o procedimento a seguir para exportar um conjunto de dados do SageMaker Canvas de um nó em seu fluxo de dados.
Para exportar um nó em seu fluxo como um conjunto de dados do SageMaker Canvas
-
Navegue até o fluxo de dados.
-
Escolha o ícone de reticências ao lado do nó que você está exportando.
-
No menu de contexto, passe o mouse sobre Exportar e selecione Exportar dados para o conjunto de dados do Canvas.
-
No painel lateral Exportar para o conjunto de dados do Canvas, insira um nome de conjunto de dados para o novo conjunto de dados.
-
Deixe a opção Processar todo o conjunto de dados selecionada se quiser que o SageMaker Canvas processe e salve seu conjunto de dados completo. Desative essa opção para aplicar somente as transformações aos dados de amostra com os quais você está trabalhando no seu fluxo de dados.
-
Escolha Exportar.
Agora você deve poder acessar a página de conjuntos de dados da aplicação Canvas e ver seu novo conjunto de dados.
Exportar para o Amazon S3.
Ao exportar dados para o Amazon S3, você pode escalar para transformar e processar dados de qualquer tamanho. O Canvas processa automaticamente seus dados localmente se a memória da aplicação puder lidar com o tamanho do seu conjunto de dados. Se o tamanho do seu conjunto de dados exceder a capacidade de memória local de 5 GB, o Canvas iniciará um trabalho remoto em seu nome para provisionar recursos computacionais adicionais e processar os dados mais rapidamente. Por padrão, o Canvas usa o Amazon EMR Sem Servidor para executar esses trabalhos remotos. No entanto, você pode configurar manualmente o Canvas para usar o EMR Serverless ou um trabalho de SageMaker processamento com suas próprias configurações.
nota
Ao executar um trabalho do EMR com tecnologia sem servidor, por padrão, o trabalho herda o perfil do IAM, as configurações da chave do KMS e as tags da sua aplicação Canvas.
Segue um resumo das opções de trabalho remoto no Canvas:
-
EMR com tecnologia sem servidor: Essa é a opção padrão que o Canvas usa para trabalhos remotos. O EMR com tecnologia sem servidor provisiona e escala automaticamente os recursos de computação para processar seus dados, de forma que você não precise se preocupar em escolher os recursos computacionais certos para seu workload. Para obter mais informações sobre o EMR com tecnologia sem servidor, consulte o Guia do usuário do EMR com tecnologia sem servidor.
-
SageMaker Processamento: os trabalhos de SageMaker processamento oferecem opções mais avançadas e controle granular sobre os recursos computacionais usados para processar seus dados. Por exemplo, você pode especificar o tipo e a contagem das instâncias de computação, configurar o trabalho em sua própria VPC e controlar o acesso à rede, automatizar trabalhos de processamento e muito mais. Para obter mais informações sobre esses processos, consulte Crie um cronograma para processar automaticamente novos dados. Para obter mais informações gerais sobre trabalhos SageMaker de processamento, consulteCargas de trabalho de transformação de dados com processamento SageMaker .
Os seguintes tipos de arquivo são compatíveis ao exportar para o Amazon S3:
-
CSV
-
Parquet
Para começar, revise os pré-requisitos a seguir.
Pré-requisitos para tarefas do EMR com tecnologia sem servidor
Para criar um trabalho remoto que usa recursos do EMR com tecnologia sem servidor, você deve ter as permissões necessárias. Você pode conceder permissões por meio das configurações de domínio ou perfil de usuário do Amazon SageMaker AI, ou pode configurar manualmente a função do AWS IAM do usuário. Para obter instruções sobre como conceder aos usuários permissões para realizar grandes processamentos de dados, consulteConceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML.
Se você não quiser configurar essas políticas, mas ainda precisar processar grandes conjuntos de dados por meio do Data Wrangler, você pode usar uma SageMaker tarefa de processamento como alternativa.
Se quiser armazenar seus dados exportados no Amazon S3, use o procedimento a seguir. Para configurar um trabalho remoto, siga as etapas avançadas opcionais.
Para exportar um nó em seu fluxo para o Amazon S3
-
Navegue até o fluxo de dados.
-
Escolha o ícone de reticências ao lado do nó que você está exportando.
-
No menu de contexto, passe o mouse sobre Exportar e selecione Exportar dados para o Amazon S3.
-
No painel lateral Exportar para o Amazon S3, você pode alterar o nome do conjunto de dados para o novo conjunto de dados.
-
Para a localização do S3, insira a localização do Amazon S3 para a qual você deseja exportar o conjunto de dados. Você pode inserir o URI, o alias ou o ARN do S3 da localização do S3 ou do ponto de acesso do S3. Para obter mais informações, consulte Gerenciando o acesso a dados com o recurso Pontos de Acesso Amazon S3 no Guia do usuário do Amazon S3.
-
(Opcional) Para as configurações avançadas, especifique valores para os seguintes campos:
-
Tipo de arquivo: o formato de arquivo dos dados exportados.
-
Delimitador: o delimitador utilizado para separar valores no arquivo.
-
Compressão: o método de compactação usado para reduzir o tamanho do arquivo.
-
Número de partições: o número de arquivos de conjunto de dados que o Canvas grava como saída do trabalho.
-
Escolher colunas: você pode escolher um subconjunto de colunas dos dados para incluir nas partições.
-
-
Deixe a opção Processar todo o conjunto de dados selecionada se quiser que o Canvas aplique suas transformações de fluxo de dados em todo o conjunto de dados e exporte o resultado. Se você desmarcar essa opção, o Canvas aplicará somente as transformações à amostra do seu conjunto de dados usado no fluxo de dados interativo do Data Wrangler.
nota
Se você exportar apenas uma amostra dos seus dados, o Canvas processa seus dados na aplicação e não cria um trabalho remoto para você.
-
Deixe a opção Configuração automática da tarefa selecionada se quiser que o Canvas determine automaticamente se a tarefa deve ser executada usando a memória da aplicação Canvas ou uma tarefa do EMR Sem Servidor. Se você desmarcar essa opção e configurar manualmente sua tarefa, poderá optar por usar uma tarefa EMR Serverless ou Processing. SageMaker Para obter instruções sobre como configurar um EMR Serverless ou um trabalho de SageMaker processamento, consulte a seção após esse procedimento antes de exportar seus dados.
-
Escolha Exportar.
Os procedimentos a seguir mostram como definir manualmente as configurações de trabalho remoto para o EMR Serverless ou SageMaker Processing ao exportar seu conjunto de dados completo para o Amazon S3.
Para configurar um trabalho do EMR com tecnologia sem servidor durante a exportação para o Amazon S3, faça o seguinte:
-
No painel lateral Exportar para o Amazon S3, desative a opção Configuração automática de tarefas.
-
Selecione EMR com tecnologia sem servidor.
-
Em Nome do trabalho, insira um nome para o seu trabalho EMR com tecnologia sem servidor. O nome só pode conter letras, números, hifens e sublinhado.
-
Para a função IAM, insira a função de execução do IAM do usuário. Essa função deve ter as permissões necessárias para executar aplicações EMR com tecnologia sem servidor. Para obter mais informações, consulte Conceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML.
-
(Opcional) Para a chave KMS, especifique o ID da chave ou o ARN de AWS KMS key um para criptografar os registros do trabalho. Se você não inserir uma chave, o Canvas utilizará uma chave padrão para o EMR com tecnologia sem servidor.
-
(Opcional) Para configuração de monitoramento, insira o nome de um grupo de CloudWatch logs do Amazon Logs no qual você deseja publicar seus registros.
-
(Opcional) Para tags, adicione tags de metadados à tarefa do EMR com tecnologia sem servidor que consiste em pares de valores-chave. Essas tags podem ser usadas para categorizar e pesquisar empregos.
-
Selecione Export para iniciar o trabalho.
Depois de exportar os dados, você deve encontrar o conjunto de dados totalmente processado na localização especificada do Amazon S3.