Exportar dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Exportar dados

Exporte dados para aplicar as transformações do seu fluxo de dados ao conjunto de dados importado completo. Você pode exportar qualquer nó em seu fluxo de dados para os seguintes locais:

  • SageMaker Conjunto de dados Canvas

  • Amazon S3

Se você quiser treinar modelos no Canvas, você pode exportar seu conjunto de dados completo e transformado como um conjunto de dados do Canvas. Se você quiser usar seus dados transformados em fluxos de trabalho de aprendizado de máquina externos ao SageMaker Canvas, você pode exportar seu conjunto de dados para o Amazon S3.

Exportar para um conjunto de dados do Canvas

Use o procedimento a seguir para exportar um conjunto de dados do SageMaker Canvas de um nó em seu fluxo de dados.

Para exportar um nó em seu fluxo como um conjunto de dados do SageMaker Canvas
  1. Navegue até seu fluxo de dados.

  2. Escolha o ícone de reticências ao lado do nó que você está exportando.

  3. No menu de contexto, passe o mouse sobre Exportar e selecione Exportar dados para o conjunto de dados do Canvas.

  4. No painel lateral Exportar para o conjunto de dados do Canvas, insira um nome de conjunto de dados para o novo conjunto de dados.

  5. Deixe a opção Processar todo o conjunto de dados selecionada se quiser que o SageMaker Canvas processe e salve seu conjunto de dados completo. Desative essa opção para aplicar somente as transformações aos dados de amostra com os quais você está trabalhando no seu fluxo de dados.

  6. Escolha Exportar.

Agora você deve poder acessar a página de conjuntos de dados do aplicativo Canvas e ver seu novo conjunto de dados.

Exportar para o Amazon S3.

Ao exportar seus dados para o Amazon S3, você pode escalar para transformar e processar dados de qualquer tamanho. O Canvas processa automaticamente seus dados localmente se a memória do aplicativo puder lidar com o tamanho do seu conjunto de dados. Se o tamanho do seu conjunto de dados exceder a capacidade de memória local de 5 GB, o Canvas iniciará um trabalho remoto em seu nome para provisionar recursos computacionais adicionais e processar os dados mais rapidamente. Por padrão, o Canvas usa o Amazon EMR Serverless para executar esses trabalhos remotos. No entanto, você pode configurar manualmente o Canvas para usar o EMR Serverless ou um trabalho SageMaker de processamento com suas próprias configurações.

nota

Ao executar um trabalho EMR sem servidor, por padrão, o trabalho herda a IAM função, as KMS principais configurações e as tags do seu aplicativo Canvas.

O seguinte resume as opções para trabalhos remotos no Canvas:

  • EMRSem servidor: Essa é a opção padrão que o Canvas usa para trabalhos remotos. EMRO Serverless provisiona e dimensiona automaticamente os recursos de computação para processar seus dados, de forma que você não precise se preocupar em escolher os recursos computacionais certos para sua carga de trabalho. Para obter mais informações sobre o EMR Serverless, consulte o Guia do usuário do EMRServerless.

  • SageMaker Processamento: os trabalhos de SageMaker processamento oferecem opções mais avançadas e controle granular sobre os recursos computacionais usados para processar seus dados. Por exemplo, você pode especificar o tipo e a contagem das instâncias de computação, configurar o trabalho por conta própria VPC e controlar o acesso à rede, automatizar trabalhos de processamento e muito mais. Para obter mais informações sobre como automatizar trabalhos de processamento, consulte. Crie um cronograma para processar automaticamente novos dados Para obter mais informações gerais sobre trabalhos SageMaker de processamento, consulteCargas de trabalho de transformação de dados com processamento SageMaker .

Os seguintes tipos de arquivo são suportados ao exportar para o Amazon S3:

  • CSV

  • Parquet

Para começar, revise os pré-requisitos a seguir.

Pré-requisitos para trabalhos sem servidor EMR

Para criar um trabalho remoto que use recursos EMR sem servidor, você deve ter as permissões necessárias. Você pode conceder permissões por meio das configurações de SageMaker domínio ou perfil de usuário da Amazon, ou pode configurar manualmente sua AWS IAM função de usuário. Para obter instruções sobre como conceder permissões aos usuários para realizar grandes processamentos de dados, consulteConceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML.

Se você não quiser configurar essas políticas, mas ainda precisar processar grandes conjuntos de dados por meio do Data Wrangler, você pode usar uma SageMaker tarefa de processamento como alternativa.

Use os procedimentos a seguir para exportar seus dados para o Amazon S3. Para configurar um trabalho remoto, siga as etapas avançadas opcionais.

Para exportar um nó em seu fluxo para o Amazon S3
  1. Navegue até seu fluxo de dados.

  2. Escolha o ícone de reticências ao lado do nó que você está exportando.

  3. No menu de contexto, passe o mouse sobre Exportar e selecione Exportar dados para o Amazon S3.

  4. No painel lateral Exportar para o Amazon S3, você pode alterar o nome do conjunto de dados para o novo conjunto de dados.

  5. Para a localização do S3, insira a localização do Amazon S3 para a qual você deseja exportar o conjunto de dados. Você pode inserir o S3URI, o alias ou o local ARN do S3 ou o ponto de acesso do S3. Para obter mais informações sobre pontos de acesso, consulte Gerenciamento do acesso a dados com pontos de acesso do Amazon S3 no Guia do usuário do Amazon S3.

  6. (Opcional) Para as configurações avançadas, especifique valores para os seguintes campos:

    1. Tipo de arquivo — O formato de arquivo dos dados exportados.

    2. Delimitador — O delimitador usado para separar valores no arquivo.

    3. Compressão — O método de compactação usado para reduzir o tamanho do arquivo.

    4. Número de partições — O número de arquivos do conjunto de dados que o Canvas grava como saída do trabalho.

    5. Escolha colunas — Você pode escolher um subconjunto de colunas dos dados para incluir nas partições.

  7. Deixe a opção Processar todo o conjunto de dados selecionada se quiser que o Canvas aplique suas transformações de fluxo de dados em todo o conjunto de dados e exporte o resultado. Se você desmarcar essa opção, o Canvas aplicará somente as transformações à amostra do seu conjunto de dados usado no fluxo de dados interativo do Data Wrangler.

    nota

    Se você exportar apenas uma amostra dos seus dados, o Canvas processa seus dados no aplicativo e não cria um trabalho remoto para você.

  8. Deixe a opção Configuração automática da tarefa selecionada se quiser que o Canvas determine automaticamente se a tarefa deve ser executada usando a memória do aplicativo Canvas ou uma tarefa EMR sem servidor. Se você desmarcar essa opção e configurar manualmente sua tarefa, poderá optar por usar uma tarefa EMR sem servidor ou uma SageMaker tarefa de processamento. Para obter instruções sobre como configurar uma tarefa EMR sem servidor ou de SageMaker processamento, consulte a seção após esse procedimento antes de exportar seus dados.

  9. Escolha Exportar.

Os procedimentos a seguir mostram como definir manualmente as configurações de trabalho remoto para EMR Serverless ou SageMaker Processing ao exportar seu conjunto de dados completo para o Amazon S3.

EMR Serverless

Para configurar um trabalho EMR sem servidor ao exportar para o Amazon S3, faça o seguinte:

  1. No painel lateral Exportar para o Amazon S3, desative a opção Configuração automática de tarefas.

  2. Selecione EMRSem servidor.

  3. Em Nome do trabalho, insira um nome para seu trabalho EMR sem servidor. O nome pode conter letras, números, hífens e sublinhados.

  4. Em IAMfunção, insira a função de IAM execução do usuário. Essa função deve ter as permissões necessárias para executar aplicativos EMR sem servidor. Para obter mais informações, consulte Conceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML.

  5. (Opcional) Para KMSchave, especifique o ID da chave ou ARN de um AWS KMS key para criptografar os registros de tarefas. Se você não inserir uma chave, o Canvas usa uma chave padrão para EMR Serverless.

  6. (Opcional) Para configuração de monitoramento, insira o nome de um grupo de CloudWatch logs do Amazon Logs no qual você deseja publicar seus registros.

  7. (Opcional) Para Tags, adicione tags de metadados ao trabalho EMR sem servidor que consiste em pares de valores-chave. Essas tags podem ser usadas para categorizar e pesquisar empregos.

  8. Selecione Export para iniciar o trabalho.

SageMaker Processing

Para configurar um trabalho SageMaker de processamento durante a exportação para o Amazon S3, faça o seguinte:

  1. No painel lateral Exportar para o Amazon S3, desative a opção Configuração automática de tarefas.

  2. Selecione SageMaker Processamento.

  3. Em Nome do trabalho, insira um nome para seu trabalho SageMaker de processamento.

  4. Em Tipo de instância, selecione o tipo de instância de computação para executar o trabalho de processamento.

  5. Em Contagem de instâncias, especifique o número de instâncias de computação a serem executadas.

  6. Em IAMfunção, insira a função de IAM execução do usuário. Essa função deve ter as permissões necessárias SageMaker para criar e executar trabalhos de processamento em seu nome. Essas permissões são concedidas se você tiver a AmazonSageMakerFullAccesspolítica anexada à sua IAM função.

  7. Em Tamanho do volume, insira o tamanho do armazenamento em GB para o volume de armazenamento de ML que está anexado a cada instância de processamento. Escolha o tamanho com base no tamanho esperado dos dados de entrada e saída.

  8. (Opcional) Em KMSChave de volume, especifique uma KMS chave para criptografar o volume de armazenamento. Se você não especificar uma chave, a chave de EBS criptografia padrão da Amazon será usada.

  9. (Opcional) Para KMSchave, especifique uma KMS chave para criptografar as fontes de dados de entrada e saída do Amazon S3 usadas pelo trabalho de processamento.

  10. (Opcional) Para a configuração da memória Spark, faça o seguinte:

    1. Insira a memória do driver em MB para o nó do driver do Spark que gerencia a coordenação e o agendamento do trabalho.

    2. Insira a memória do executor em MB para os nós executores do Spark que executam tarefas individuais na tarefa.

  11. (Opcional) Para configuração de rede, faça o seguinte:

    1. Em Configuração de sub-rede, insira as IDs VPC sub-redes nas quais as instâncias de processamento serão iniciadas. Por padrão, o trabalho usa as configurações padrãoVPC.

    2. Em Configuração do grupo de segurança, insira os grupos IDs de segurança para controlar as regras de conectividade de entrada e saída.

    3. Ative a opção Habilitar criptografia de tráfego entre contêineres para criptografar a comunicação de rede entre contêineres de processamento durante o trabalho.

  12. (Opcional) Para agendas de associados, você pode escolher criar uma EventBridge programação da Amazon para que o trabalho de processamento seja executado em intervalos recorrentes. Escolha Criar nova agenda e preencha a caixa de diálogo. Para obter mais informações sobre o preenchimento desta seção e a execução de trabalhos de processamento em um cronograma, consulteCrie um cronograma para processar automaticamente novos dados.

  13. (Opcional) Adicione tags como pares de valores-chave para que você possa categorizar e pesquisar trabalhos de processamento.

  14. Escolha Exportar para iniciar o trabalho de processamento.

Depois de exportar seus dados, você deve encontrar o conjunto de dados totalmente processado no local especificado do Amazon S3.