Exportar dados

PDF

RSS

Modo de foco

Nesta página

Related resources

Amazon SageMaker AI Referência da API

AWS CLI comandos para Amazon SageMaker AI

SDKs e ferramentas

Esta página foi útil?

Fornecer feedback

Exportar dados - SageMaker IA da Amazon

Exportar para um conjunto de dados do Canvas Exportar para o Amazon S3.

Exporte dados para aplicar as transformações do seu fluxo de dados ao conjunto de dados importado completo. Você pode exportar qualquer nó em seu fluxo de dados para os seguintes locais:

SageMaker Conjunto de dados Canvas
Amazon S3

Se você quiser treinar modelos no Canvas, você pode exportar seu conjunto de dados completo e transformado como um conjunto de dados do Canvas. Se você quiser usar seus dados transformados em fluxos de trabalho de aprendizado de máquina externos ao SageMaker Canvas, você pode exportar seu conjunto de dados para o Amazon S3.

Exportar para um conjunto de dados do Canvas

Use o procedimento a seguir para exportar um conjunto de dados do SageMaker Canvas de um nó em seu fluxo de dados.

Para exportar um nó em seu fluxo como um conjunto de dados do SageMaker Canvas

Navegue até o fluxo de dados.
Escolha o ícone de reticências ao lado do nó que você está exportando.
No menu de contexto, passe o mouse sobre Exportar e selecione Exportar dados para o conjunto de dados do Canvas.
No painel lateral Exportar para o conjunto de dados do Canvas, insira um nome de conjunto de dados para o novo conjunto de dados.
Deixe a opção Processar todo o conjunto de dados selecionada se quiser que o SageMaker Canvas processe e salve seu conjunto de dados completo. Desative essa opção para aplicar somente as transformações aos dados de amostra com os quais você está trabalhando no seu fluxo de dados.
Escolha Exportar.

Agora você deve poder acessar a página de conjuntos de dados da aplicação Canvas e ver seu novo conjunto de dados.

Exportar para o Amazon S3.

Ao exportar dados para o Amazon S3, você pode escalar para transformar e processar dados de qualquer tamanho. O Canvas processa automaticamente seus dados localmente se a memória da aplicação puder lidar com o tamanho do seu conjunto de dados. Se o tamanho do seu conjunto de dados exceder a capacidade de memória local de 5 GB, o Canvas iniciará um trabalho remoto em seu nome para provisionar recursos computacionais adicionais e processar os dados mais rapidamente. Por padrão, o Canvas usa o Amazon EMR Sem Servidor para executar esses trabalhos remotos. No entanto, você pode configurar manualmente o Canvas para usar o EMR Serverless ou um trabalho de SageMaker processamento com suas próprias configurações.

nota

Ao executar um trabalho do EMR com tecnologia sem servidor, por padrão, o trabalho herda o perfil do IAM, as configurações da chave do KMS e as tags da sua aplicação Canvas.

Segue um resumo das opções de trabalho remoto no Canvas:

EMR com tecnologia sem servidor: Essa é a opção padrão que o Canvas usa para trabalhos remotos. O EMR com tecnologia sem servidor provisiona e escala automaticamente os recursos de computação para processar seus dados, de forma que você não precise se preocupar em escolher os recursos computacionais certos para seu workload. Para obter mais informações sobre o EMR com tecnologia sem servidor, consulte o Guia do usuário do EMR com tecnologia sem servidor.
SageMaker Processamento: os trabalhos de SageMaker processamento oferecem opções mais avançadas e controle granular sobre os recursos computacionais usados para processar seus dados. Por exemplo, você pode especificar o tipo e a contagem das instâncias de computação, configurar o trabalho em sua própria VPC e controlar o acesso à rede, automatizar trabalhos de processamento e muito mais. Para obter mais informações sobre esses processos, consulte Crie um cronograma para processar automaticamente novos dados. Para obter mais informações gerais sobre trabalhos SageMaker de processamento, consulteCargas de trabalho de transformação de dados com processamento SageMaker .

Os seguintes tipos de arquivo são compatíveis ao exportar para o Amazon S3:

CSV
Parquet

Para começar, revise os pré-requisitos a seguir.

Pré-requisitos para tarefas do EMR com tecnologia sem servidor

Para criar um trabalho remoto que usa recursos do EMR com tecnologia sem servidor, você deve ter as permissões necessárias. Você pode conceder permissões por meio das configurações de domínio ou perfil de usuário do Amazon SageMaker AI, ou pode configurar manualmente a função do AWS IAM do usuário. Para obter instruções sobre como conceder aos usuários permissões para realizar grandes processamentos de dados, consulteConceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML.

Se você não quiser configurar essas políticas, mas ainda precisar processar grandes conjuntos de dados por meio do Data Wrangler, você pode usar uma SageMaker tarefa de processamento como alternativa.

Se quiser armazenar seus dados exportados no Amazon S3, use o procedimento a seguir. Para configurar um trabalho remoto, siga as etapas avançadas opcionais.

Para exportar um nó em seu fluxo para o Amazon S3

Navegue até o fluxo de dados.
Escolha o ícone de reticências ao lado do nó que você está exportando.
No menu de contexto, passe o mouse sobre Exportar e selecione Exportar dados para o Amazon S3.
No painel lateral Exportar para o Amazon S3, você pode alterar o nome do conjunto de dados para o novo conjunto de dados.
Para a localização do S3, insira a localização do Amazon S3 para a qual você deseja exportar o conjunto de dados. Você pode inserir o URI, o alias ou o ARN do S3 da localização do S3 ou do ponto de acesso do S3. Para obter mais informações, consulte Gerenciando o acesso a dados com o recurso Pontos de Acesso Amazon S3 no Guia do usuário do Amazon S3.
(Opcional) Para as configurações avançadas, especifique valores para os seguintes campos:
1. Tipo de arquivo: o formato de arquivo dos dados exportados.
2. Delimitador: o delimitador utilizado para separar valores no arquivo.
3. Compressão: o método de compactação usado para reduzir o tamanho do arquivo.
4. Número de partições: o número de arquivos de conjunto de dados que o Canvas grava como saída do trabalho.
5. Escolher colunas: você pode escolher um subconjunto de colunas dos dados para incluir nas partições.
Deixe a opção Processar todo o conjunto de dados selecionada se quiser que o Canvas aplique suas transformações de fluxo de dados em todo o conjunto de dados e exporte o resultado. Se você desmarcar essa opção, o Canvas aplicará somente as transformações à amostra do seu conjunto de dados usado no fluxo de dados interativo do Data Wrangler.

nota
Se você exportar apenas uma amostra dos seus dados, o Canvas processa seus dados na aplicação e não cria um trabalho remoto para você.
Deixe a opção Configuração automática da tarefa selecionada se quiser que o Canvas determine automaticamente se a tarefa deve ser executada usando a memória da aplicação Canvas ou uma tarefa do EMR Sem Servidor. Se você desmarcar essa opção e configurar manualmente sua tarefa, poderá optar por usar uma tarefa EMR Serverless ou Processing. SageMaker Para obter instruções sobre como configurar um EMR Serverless ou um trabalho de SageMaker processamento, consulte a seção após esse procedimento antes de exportar seus dados.
Escolha Exportar.

Os procedimentos a seguir mostram como definir manualmente as configurações de trabalho remoto para o EMR Serverless ou SageMaker Processing ao exportar seu conjunto de dados completo para o Amazon S3.

EMR Serverless

Para configurar um trabalho do EMR com tecnologia sem servidor durante a exportação para o Amazon S3, faça o seguinte:

No painel lateral Exportar para o Amazon S3, desative a opção Configuração automática de tarefas.
Selecione EMR com tecnologia sem servidor.
Em Nome do trabalho, insira um nome para o seu trabalho EMR com tecnologia sem servidor. O nome só pode conter letras, números, hifens e sublinhado.
Para a função IAM, insira a função de execução do IAM do usuário. Essa função deve ter as permissões necessárias para executar aplicações EMR com tecnologia sem servidor. Para obter mais informações, consulte Conceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML.
(Opcional) Para a chave KMS, especifique o ID da chave ou o ARN de AWS KMS key um para criptografar os registros do trabalho. Se você não inserir uma chave, o Canvas utilizará uma chave padrão para o EMR com tecnologia sem servidor.
(Opcional) Para configuração de monitoramento, insira o nome de um grupo de CloudWatch logs do Amazon Logs no qual você deseja publicar seus registros.
(Opcional) Para tags, adicione tags de metadados à tarefa do EMR com tecnologia sem servidor que consiste em pares de valores-chave. Essas tags podem ser usadas para categorizar e pesquisar empregos.
Selecione Export para iniciar o trabalho.

SageMaker Processing

Para configurar um trabalho SageMaker de processamento durante a exportação para o Amazon S3, faça o seguinte:

No painel lateral Exportar para o Amazon S3, desative a opção Configuração automática de tarefas.
Selecione SageMaker Processamento.
Em Nome do trabalho, insira um nome para seu trabalho de processamento de SageMaker IA.
Em Tipo de instância, selecione o tipo de instância de computação para executar o trabalho de processamento.
Para Contagem de instâncias, especifique o número de instâncias de computação a serem iniciadas.
Para a função IAM, insira a função de execução do IAM do usuário. Essa função deve ter as permissões necessárias para que a SageMaker IA crie e execute trabalhos de processamento em seu nome. Essas permissões são concedidas se você tiver a AmazonSageMakerFullAccesspolítica anexada à sua função do IAM.
Em Tamanho do volume, insira o tamanho do armazenamento em GB para o volume de armazenamento de ML que está anexado a cada instância de processamento. Escolha o tamanho com base no tamanho esperado dos dados de entrada e saída.
(Opcional) Para a chave KMS de volume, especifique uma chave do KMS para criptografar o volume de armazenamento. Se você não especificar uma chave, a chave de criptografia Amazon EBS padrão será usada.
(Opcional) Para a chave do KMS, especifique uma chave do KMS para criptografar as fontes de dados de entrada e saída do Amazon S3 usadas pelo trabalho de processamento.
(Opcional) Em Configuração de memória Spark, faça o seguinte:
1. Insira a memória do driver em MB para o nó do driver do Spark que gerencia a coordenação e o agendamento do trabalho.
2. Insira a memória do executor em MB para os nós executores do Spark que executam tarefas individuais na tarefa.
(Opcional) Para configuração de rede, faça o seguinte:
1. Em Configuração de sub-rede, insira as IDs sub-redes VPC nas quais as instâncias de processamento serão iniciadas. Por padrão, o trabalho usa as configurações da sua VPC padrão.
2. Em Configuração do grupo de segurança, insira os grupos IDs de segurança para controlar as regras de conectividade de entrada e saída.
3. Ative a opção Habilitar criptografia de tráfego entre contêineres para criptografar a comunicação de rede entre contêineres de processamento durante o trabalho.
(Opcional) Para agendas de associados, você pode escolher criar uma EventBridge programação da Amazon para que o trabalho de processamento seja executado em intervalos recorrentes. Escolha Criar nova programação e preencha a caixa de diálogo. Crie um cronograma para processar automaticamente novos dados: tenha uma visão geral do ciclo de vida de ML e conheça as soluções oferecidas.
(Opcional) Adicione tags como pares de valores-chave para que você possa categorizar e pesquisar trabalhos de processamento.
Selecione Export para iniciar o trabalho.

anchor anchor

Para configurar um trabalho do EMR com tecnologia sem servidor durante a exportação para o Amazon S3, faça o seguinte:

No painel lateral Exportar para o Amazon S3, desative a opção Configuração automática de tarefas.
Selecione EMR com tecnologia sem servidor.
Em Nome do trabalho, insira um nome para o seu trabalho EMR com tecnologia sem servidor. O nome só pode conter letras, números, hifens e sublinhado.
Para a função IAM, insira a função de execução do IAM do usuário. Essa função deve ter as permissões necessárias para executar aplicações EMR com tecnologia sem servidor. Para obter mais informações, consulte Conceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML.
(Opcional) Para a chave KMS, especifique o ID da chave ou o ARN de AWS KMS key um para criptografar os registros do trabalho. Se você não inserir uma chave, o Canvas utilizará uma chave padrão para o EMR com tecnologia sem servidor.
(Opcional) Para configuração de monitoramento, insira o nome de um grupo de CloudWatch logs do Amazon Logs no qual você deseja publicar seus registros.
(Opcional) Para tags, adicione tags de metadados à tarefa do EMR com tecnologia sem servidor que consiste em pares de valores-chave. Essas tags podem ser usadas para categorizar e pesquisar empregos.
Selecione Export para iniciar o trabalho.

Depois de exportar os dados, você deve encontrar o conjunto de dados totalmente processado na localização especificada do Amazon S3.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Exportar para criar um modelo

Exportar um fluxo de dados

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Exportar dados

Nesta página

Related resources

Esta página foi útil?

Exportar para um conjunto de dados do Canvas

Para exportar um nó em seu fluxo como um conjunto de dados do SageMaker Canvas

Exportar para o Amazon S3.

nota

Pré-requisitos para tarefas do EMR com tecnologia sem servidor

Para exportar um nó em seu fluxo para o Amazon S3

nota

Related resources

Próximo tópico:

Tópico anterior:

Precisa de ajuda?