Exportar - Amazon SageMaker

Exportar

No fluxo do Data Wrangler, você pode exportar algumas ou todas as transformações que você fez para seus pipelines de processamento de dados.

Um fluxo do Data Wrangler é a série de etapas de preparação de dados que você executou em seus dados. Na preparação de dados, você realiza uma ou mais transformações em seus dados. Cada transformação é feita usando uma etapa de transformação. O fluxo tem uma série de nós que representam a importação de seus dados e as transformações que você realizou. Para obter um exemplo de nós, consulte as imagens a seguir.

Exemplo de fluxo de dados no console do Data Wrangler.

A imagem anterior mostra um fluxo do Data Wrangler com dois nós. O nó Fonte - amostra mostra a fonte de dados da qual você importou seus dados. O nó Tipos de dados indica que o Data Wrangler realizou uma transformação para converter o conjunto de dados em um formato utilizável.

Cada transformação que você adiciona ao fluxo do Data Wrangler aparece como um nó adicional. Para obter mais informações sobre as transformações que você pode adicionar, consulte Transformar dados. A imagem a seguir mostra um fluxo do Data Wrangler que tem um nó Renomear coluna para alterar o nome de uma coluna em um conjunto de dados.

Você pode exportar suas transformações de dados para o seguinte:

  • Amazon S3

  • Pipelines

  • Amazon SageMaker Feature Store

  • Código Python

Importante

Recomendamos que você use a política AmazonSageMakerFullAccess gerenciada do IAM para conceder AWS permissão para usar o Data Wrangler. Se você não usar a política gerenciada, poderá usar uma política do IAM que conceda ao Data Wrangler acesso a um bucket do Amazon S3. Para obter mais informações sobre a política, consulte Segurança e permissões.

Ao exportar seu fluxo de dados, você é cobrado pelos recursos AWS que usa. Você pode usar tags de alocação de custos para organizar e gerenciar os custos desses recursos. Você cria essas tags para seu perfil de usuário e o Data Wrangler as aplica automaticamente aos recursos usados para exportar o fluxo de dados. Para obter mais informações, consulte Usar tags de alocação de custos.

Exportar para o Amazon S3.

O Data Wrangler oferece a capacidade de exportar seus dados para um local dentro de um bucket do Amazon S3. Você pode especificar o local usando um dos seguintes métodos:

  • Nó de destino: Onde o Data Wrangler armazena os dados depois de processá-los.

  • Exportar para: Exporta os dados resultantes de uma transformação para o Amazon S3.

  • Exportar dados: Para conjuntos de dados pequenos, pode exportar rapidamente os dados que você transformou.

Use as seções a seguir para saber mais sobre cada um desses métodos.

Destination Node

Se você quiser enviar uma série de etapas de processamento de dados que você executou para o Amazon S3, crie um nó de destino. Um nó de destino informa ao Data Wrangler onde armazenar os dados depois de processá-los. Depois de criar um nó de destino, você cria um trabalho de processamento para gerar os dados. Um trabalho de processamento é um trabalho do Amazon SageMaker Processing. Quando você usa um nó de destino, ele executa os recursos computacionais necessários para gerar os dados que você transformou no Amazon S3.

Você pode usar um nó de destino para exportar algumas das transformações ou todas as transformações que você fez em seu fluxo do Data Wrangler.

Você pode usar vários nós de destino para exportar diferentes transformações ou conjuntos de transformações. O exemplo a seguir mostra dois nós de destino em um único fluxo do Data Wrangler.

Exemplo de fluxo de dados mostrando dois nós de destino no console do Data Wrangler.

Você pode usar o procedimento a seguir para criar nós de destino e exportar para um bucket do Amazon S3.

Para exportar seu fluxo de dados, você cria nós de destino e um trabalho do Data Wrangler para exportar os dados. A criação de um trabalho do Data Wrangler inicia um trabalho de processamento do SageMaker para exportar seu fluxo. Você pode escolher os nós de destino que deseja exportar depois de criá-los.

nota

Você pode escolher Criar tarefa no fluxo do Data Wrangler para ver as instruções de uso de um trabalho de processamento.

Use o procedimento a seguir para criar nós de destino.

  1. Escolha o + ao lado dos nós que representam as transformações que você deseja exportar.

  2. Escolha Adicionar destino.

    Exemplo de fluxo de dados mostrando como adicionar um destino no console do Data Wrangler.
  3. Escolha Amazon S3.

    Exemplo de fluxo de dados mostrando como adicionar um destino no console do Data Wrangler.
  4. Especifique os seguintes campos:

    • Nome do conjunto de dados: o nome que você especifica para o conjunto de dados que você está exportando.

    • Tipo de arquivo: o formato do arquivo que você está exportando.

    • Delimitador (somente arquivos CSV e Parquet): o valor usado para separar outros valores.

    • Compressão (somente arquivos CSV e Parquet): o método de compactação usado para reduzir o tamanho do arquivo. É possível usar os seguintes métodos de compressão:

      • bzip2

      • desinflar

      • gzip

    • (Opcional) Localização do Amazon S3: a localização do S3 que você está usando para gerar os arquivos.

    • (Opcional) Número de partições: o número de conjuntos de dados que você está gravando como saída do trabalho de processamento.

    • (Opcional) Partição por coluna: grava todos os dados com o mesmo valor exclusivo da coluna.

    • (Opcional) Parâmetros de inferência: selecionar Gerar artefato de inferência aplica todas as transformações que você usou no fluxo do Data Wrangler aos dados que chegam ao seu pipeline de inferência. O modelo em seu pipeline faz predições sobre os dados transformados.

  5. Escolha Adicionar destino.

Use o procedimento a seguir para criar um trabalho em processamento.

Crie um trabalho na página Fluxo de dados e escolha os nós de destino que você deseja exportar.

nota

Você pode escolher Criar tarefa no fluxo do Data Wrangler para ver as instruções para criar um trabalho de processamento.

  1. Escolha Criar trabalho. A imagem a seguir mostra o painel que aparece depois que você seleciona Criar tarefa.

    Exemplo de painel de criação de trabalho de fluxo de dados no console do Data Wrangler.
  2. Em Nome do trabalho, especifique o nome do trabalho de exportação.

  3. Selecione os nós de destino que deseja exportar.

  4. (Opcional) Especifique um ARN de chave AWS KMS. Uma AWS KMS chave é uma chave criptográfica que você pode usar para proteger seus dados. Para obter mais informações sobre chaves do AWS KMS, consulte AWS Key Management Service.

  5. (Opcional) Em Parâmetros treinados, escolha Reajustar se você tiver feito o seguinte:

    • Coletou amostras do seu conjunto de dados

    • Aplicou uma transformação que usa seus dados para criar uma nova coluna no conjunto de dados

    Para obter mais informações sobre como reajustar as transformações que você fez em um conjunto de dados inteiro, consulte Reajuste as transformações em todo o conjunto de dados e exporte-as.

    nota

    Para dados de imagem, o Data Wrangler exporta as transformações que você fez em todas as imagens. Reajustar as transformações não é aplicável ao seu caso de uso.

  6. Selecione Configurar trabalho. A imagem a seguir mostra a página Configurar tarefa.

    Exemplo de página de configuração de trabalho de fluxo de dados no console do Data Wrangler.
  7. (Opcional) Configure o trabalho do Data Wrangler. Você pode usar o seguinte exemplo de configuração:

    • Configuração do trabalho

    • Configuração de memória Spark

    • Configuração de rede

    • Tags

    • Parâmetros

    • Programações de associados

  8. Escolha Executar.

Export to

Como alternativa ao uso de um nó de destino, você pode usar a opção Exportar para exportar seu fluxo do Data Wrangler para o Amazon S3 usando um caderno Jupyter. Você pode escolher qualquer nó de dados em seu fluxo do Data Wrangler e exportá-lo. A exportação do nó de dados exporta a transformação que o nó representa e as transformações que a precedem.

Use o procedimento a seguir para gerar um caderno Jupyter e executá-lo para exportar seu fluxo do Data Wrangler para o Amazon S3.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha o Amazon S3 (via caderno Jupyter).

  4. Executar o caderno Jupyter.

    Exemplo de fluxo de dados mostrando como exportar seu fluxo do Data Wrangler no console do Data Wrangler.

Quando você executa o caderno, ele exporta seu fluxo de dados (arquivo.flow) da Região da AWS mesma forma que o fluxo do Data Wrangler.

O caderno fornece opções que você pode usar para configurar o trabalho de processamento e os dados que ele gera.

Importante

Fornecemos configurações de trabalho para configurar a saída de seus dados. Para as opções de particionamento e memória do driver, é altamente recomendável que você não especifique uma configuração, a menos que já tenha conhecimento sobre elas.

Em Configuração do trabalho, você pode configurar o seguinte:

  • output_content_type: O tipo de conteúdo do arquivo de saída. Usa CSV como formato padrão, mas você pode especificar Parquet.

  • delimiter: O caractere usado para separar valores no conjunto de dados ao gravar em um arquivo CSV.

  • compression: Se definido, comprime o arquivo de saída. Usa gzip como formato de compactação padrão.

  • num_partitions: O número de partições ou arquivos que o Data Wrangler grava como saída.

  • partition_by: Os nomes das colunas que você usa para particionar a saída.

Para alterar o formato do arquivo de saída de CSV para Parquet, altere o valor de "CSV" para "Parquet". Para o restante dos campos anteriores, remova o comentário das linhas que contêm os campos que você deseja especificar.

Em (Opcional) Configurar a memória do driver do cluster Spark, você pode configurar as propriedades do Spark para o trabalho, como a memória do driver do Spark, no dicionário config.

O seguinte mostra o dicionário config:

config = json.dumps({ "Classification": "spark-defaults", "Properties": { "spark.driver.memory": f"{driver_memory_in_mb}m", } })

Para aplicar a configuração à tarefa de processamento, remova o comentário das seguintes linhas:

# data_sources.append(ProcessingInput( # source=config_s3_uri, # destination="/opt/ml/processing/input/conf", # input_name="spark-config", # s3_data_type="S3Prefix", # s3_input_mode="File", # s3_data_distribution_type="FullyReplicated" # ))
Export data

Se você tiver uma transformação em um pequeno conjunto de dados que deseja exportar rapidamente, poderá usar o método Exportar dados. Quando você começa a escolher Exportar dados, o Data Wrangler trabalha de forma síncrona para exportar os dados que você transformou para o Amazon S3. Você não pode usar o Data Wrangler até que ele termine de exportar seus dados ou cancele a operação.

Para obter informações sobre como usar o método Exportar dados em seu fluxo do Data Wrangler, consulte o procedimento a seguir.

Para usar o método Exportar dados:

  1. Escolha um nó em seu fluxo do Data Wrangler abrindo-o (clicando duas vezes nele).

    Exemplo de fluxo de dados mostrando como exportar dados no console do Data Wrangler.
  2. Configure como você deseja exportar os dados.

  3. Escolha Exportar dados.

Quando você exporta seu fluxo de dados para um bucket do Amazon S3, o Data Wrangler armazena uma cópia do arquivo de fluxo no bucket do S3. Ele armazena o arquivo de fluxo sob o prefixo data_wrangler_flows. Se você usar o bucket padrão do Amazon S3 para armazenar seus arquivos de fluxo, ele usa a seguinte convenção de nomenclatura: sagemaker-region-account number. Por exemplo, se o número da sua conta for 111122223333 e você estiver usando o Studio Classic em us-east-1, seus conjuntos de dados importados serão armazenados em sagemaker-us-east-1-111122223333. Neste exemplo, seus arquivos.flow criados em us-east-1 são armazenados em s3://sagemaker-region-account number/data_wrangler_flows/.

Exportar para o Pipelines

Quando quiser criar e implantar fluxos de trabalho de machine learning (ML) em grande escala, você pode usar o Pipelines para criar fluxos de trabalho que gerenciam e implantam trabalhos do SageMaker. Com o Pipelines, você pode criar fluxos de trabalho que gerenciam suas tarefas de preparação de dados, treinamento de modelos e implantação de modelos do SageMaker. Você pode usar os algoritmos primários que o SageMaker oferece usando o Pipelines. Para obter mais informações sobre o Pipelines, consulte Pipelines do SageMaker.

Quando você exporta uma ou mais etapas do seu fluxo de dados para o Pipelines, o Data Wrangler cria um caderno Jupyter que você pode usar para definir, instanciar, executar e gerenciar um pipeline.

Use um caderno Jupyter para criar um pipeline

Use o procedimento a seguir para criar um caderno Jupyter para exportar seu fluxo do Data Wrangler para o Pipelines.

Use o procedimento a seguir para gerar um caderno Jupyter e executá-lo para exportar seu fluxo do Data Wrangler para o Pipelines.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha Pipelines (via caderno Jupyter).

  4. Executar o caderno Jupyter.

Exemplo de fluxo de dados mostrando como exportar seu fluxo do Data Wrangler no console do Data Wrangler.

Você pode usar o caderno Jupyter que o Data Wrangler produz para definir um pipeline. O pipeline inclui as etapas de processamento de dados que são definidas pelo fluxo do Data Wrangler.

Você pode adicionar etapas adicionais ao seu pipeline adicionando etapas à lista steps no código a seguir no caderno:

pipeline = Pipeline( name=pipeline_name, parameters=[instance_type, instance_count], steps=[step_process], #Add more steps to this list to run in your Pipeline )

Para obter mais informações sobre a definição de pipelines, consulte SageMaker Pipelines.

Exportar para um endpoint de inferência

Use seu fluxo do Data Wrangler para processar dados no momento da inferência criando um pipeline de inferência serial do SageMaker a partir do seu fluxo do Data Wrangler. Um pipeline de inferência é uma série de etapas que resulta em um modelo treinado fazendo predições sobre novos dados. Um pipeline de inferência serial no Data Wrangler transforma os dados brutos e os fornece ao modelo de machine learning para uma predição. Você cria, executa e gerencia o pipeline de inferência por meio de um caderno Jupyter no Studio Classic. Para obter mais informações sobre o acesso ao caderno, consulte Use um caderno Jupyter para criar um endpoint de inferência.

No caderno, você pode treinar um modelo de machine learning ou especificar um que já tenha treinado. Você pode usar o Amazon SageMaker Autopilot ou o XGBoost para treinar o modelo usando os dados que você transformou em seu fluxo do Data Wrangler.

O pipeline fornece a capacidade de realizar inferências em lote ou em tempo real. Você também pode adicionar o fluxo do Data Wrangler ao SageMaker Model Registry. Para obter mais informações sobre modelos de host, consulte Endpoints multimodelo.

Importante

Você não pode exportar seu fluxo do Data Wrangler para um endpoint de inferência se ele tiver as seguintes transformações:

  • Ingressar

  • concatenar

  • Agrupar por

Se você precisar usar as transformações anteriores para preparar seus dados, use o procedimento a seguir.

Para preparar seus dados para inferência com transformações sem compatibilidade
  1. Crie um fluxo do Data Wrangler.

  2. Aplique as transformações anteriores que não são compatíveis.

  3. Exportar os dados para um bucket do Amazon S3.

  4. Crie um fluxo de Data Wrangler separado.

  5. Importe os dados que você exportou do fluxo anterior.

  6. Aplique as transformações restantes.

  7. Crie um pipeline de inferência serial usando o caderno Jupyter que fornecemos.

Para obter informações sobre como exportar dados para um bucket do Amazon S3, consulte Exportar para o Amazon S3.. Para obter informações sobre como abrir o caderno Jupyter usado para criar o pipeline de inferência serial, consulte Use um caderno Jupyter para criar um endpoint de inferência.

O Data Wrangler ignora as transformações que removem dados no momento da inferência. Por exemplo, o Data Wrangler ignora a transformação Lidar com valores ausentes se você usar a configuração Drop missing.

Se você reajustou as transformações em todo o seu conjunto de dados, as transformações são transferidas para seu pipeline de inferência. Por exemplo, se você usou o valor mediano para imputar valores ausentes, o valor médio do reajuste da transformação será aplicado às suas solicitações de inferência. Você pode reajustar as transformações do seu fluxo do Data Wrangler ao usar o caderno Jupyter ou ao exportar seus dados para um pipeline de inferência. Para informações sobre reajustar transformações, consulte Reajuste as transformações em todo o conjunto de dados e exporte-as.

O pipeline de inferência serial é compatível com os seguintes tipos de dados para as cadeias de caracteres de entrada e saída: Cada tipo de dados tem um conjunto de requisitos.

Tipos de dados compatíveis
  • text/csv: o tipo de dados para cadeias de caracteres CSV

    • A string não pode ter um cabeçalho.

    • Os atributos usados para o pipeline de inferência devem estar na mesma ordem dos atributos no conjunto de dados de treinamento.

    • Deve haver um delimitador de vírgula entre os atributos.

    • Os registros devem ser delimitados por um caractere de nova linha.

    Veja a seguir um exemplo de uma string CSV com formatação válida que você pode fornecer em uma solicitação de inferência.

    abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890
  • application/json: o tipo de dados para strings JSON

    • Os atributos usados no conjunto de dados para o pipeline de inferência devem estar na mesma ordem dos atributos no conjunto de dados de treinamento.

    • Os dados devem ter um esquema específico. Você define o esquema como um único objeto instances que tem um conjunto de features. Cada objeto features representa uma observação.

    Veja a seguir um exemplo de uma string JSON formatada validamente que você pode fornecer em uma solicitação de inferência.

    { "instances": [ { "features": ["abc", 0.0, "Doe, John", 12345] }, { "features": ["def", 1.1, "Doe, Jane", 67890] } ] }

Use um caderno Jupyter para criar um endpoint de inferência

Use o procedimento a seguir para exportar seu fluxo do Data Wrangler para criar um pipeline de inferência.

Para criar um pipeline de inferência usando um caderno Jupyter, faça o seguinte:

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha o SageMaker Inference Pipeline (via caderno Jupyter).

  4. Executar o caderno Jupyter.

Quando você executa o caderno Jupyter, ele cria um artefato de fluxo de inferência. Um artefato de fluxo de inferência é um arquivo de fluxo do Data Wrangler com metadados adicionais usados para criar o pipeline de inferência serial. O nó que você está exportando abrange todas as transformações dos nós anteriores.

Importante

O Data Wrangler precisa do artefato do fluxo de inferência para executar o pipeline de inferência. Você não pode usar seu próprio arquivo de fluxo como artefato. Você deve criá-lo usando o procedimento anterior.

Exportar para código Python

Para exportar todas as etapas do fluxo de dados para um arquivo Python que você possa integrar manualmente a qualquer fluxo de trabalho de processamento de dados, use o procedimento a seguir.

Use o procedimento a seguir para gerar um caderno Jupyter e executá-lo para exportar seu fluxo do Data Wrangler para o código Python.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha Python Code.

  4. Executar o caderno Jupyter.

Exemplo de fluxo de dados mostrando como exportar seu fluxo do Data Wrangler no console do Data Wrangler.

Pode ser necessário configurar o script Python para que seja executado no seu pipeline. Por exemplo, se você estiver executando um ambiente Spark, certifique-se de executar o script em um ambiente que tenha permissão para acessar AWS recursos.

Exportar para a Amazon SageMaker Feature Store

Você pode usar o Data Wrangler para exportar atributos que você criou para a Amazon SageMaker Feature Store. Um atributo é uma coluna no seu conjunto de dados. O Feature Store é uma loja centralizada para atributos e seus metadados associados. Você pode usar o Feature Store para criar, compartilhar e gerenciar dados selecionados para o desenvolvimento de machine learning (ML). Armazenamentos centralizados tornam seus dados mais detectáveis e reutilizáveis. Para obter mais informações sobre o Feature Store, consulte Amazon SageMaker Feature Store.

Um conceito central no Feature Store é um grupo de atributos. Um grupo de atributos é uma coleção de atributos, seus registros (observações) e metadados associados. É semelhante a uma tabela em um banco de dados.

Você pode usar o Data Wrangler para realizar uma destas ações:

  • Atualize um grupo de atributos existente com novos registros. Um registro é uma observação no conjunto de dados.

  • Crie um novo grupo de atributos a partir de um nó em seu fluxo do Data Wrangler. O Data Wrangler adiciona as observações de seus conjuntos de dados como registros em seu grupo de atributos.

Se você estiver atualizando um grupo de atributos existente, o esquema do seu conjunto de dados deverá corresponder ao esquema do grupo de atributos. Todos os registros no grupo de atributos são substituídos pelas observações em seu conjunto de dados.

Você pode usar um caderno Jupyter ou um nó de destino para atualizar seu grupo de atributos com as observações no conjunto de dados.

Se seus grupos de atributos com o formato de tabela Iceberg tiverem uma chave de criptografia de armazenamento offline personalizado, certifique-se de conceder ao IAM que você está usando para o trabalho de Amazon SageMaker Processing permissões para usá-lo. No mínimo, você deve conceder permissões para criptografar os dados que você está gravando no Amazon S3. Para conceder as permissões, dê ao perfil do IAM a capacidade de usar o GenerateDataKey. Para obter mais informações sobre como conceder permissões a funções do IAM para usar AWS KMS chaves, consulte https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html

Destination Node

Se você quiser enviar uma série de etapas de processamento de dados que você executou para um grupo de atributos, você pode criar um nó de destino. Quando você cria e executa um nó de destino, o Data Wrangler atualiza um grupo de atributos com seus dados. Também é possível criar um novo grupo de atributos a partir da interface do nó de destino. Depois de criar um nó de destino, você cria um trabalho de processamento para gerar os dados. Um trabalho de processamento é um trabalho do Amazon SageMaker Processing. Quando você está usando um nó de destino, ele executa os atributos computacionais necessários para gerar os dados que você transformou no grupo de atributos.

Você pode usar um nó de destino para exportar algumas das transformações ou todas as transformações que você fez em seu fluxo do Data Wrangler.

Use o procedimento a seguir para criar um nó de destino para atualizar um grupo de atributos com as observações do seu conjunto de dados.

Para atualizar um grupo de atributos usando um nó de destino, faça o seguinte:

nota

Você pode escolher Criar tarefa no fluxo do Data Wrangler para ver as instruções de uso de um trabalho de processamento para atualizar o grupo de atributos.

  1. Escolha o símbolo + ao lado do nó que contém o conjunto de dados que você gostaria de exportar.

  2. Em Adicionar destino, escolha SageMaker Feature Store.

    Exemplo de fluxo de dados mostrando como adicionar um destino no console do Data Wrangler.
  3. Escolha (clique duas vezes) no grupo de atributos. O Data Wrangler verifica se o esquema do grupo de atributos corresponde ao esquema dos dados que você está usando para atualizar o grupo de atributos.

  4. (Opcional) Selecione Exportar para armazenamento offline somente para grupos de atributos que tenham um armazenamento on-line e um armazenamento offline. Essa opção só atualiza o armazenamento offline com observações do seu conjunto de dados.

  5. Depois que o Data Wrangler validar o esquema do seu conjunto de dados, escolha Adicionar.

Use o procedimento a seguir para criar um novo grupo de atributos com dados do conjunto de dados.

Você pode armazenar seu grupo de atributos por meio de uma das seguintes maneiras:

  • On-line: cache de baixa latência e alta disponibilidade para um grupo de atributos que fornece pesquisa de registros em tempo real. O armazenamento on-line permite acesso rápido ao valor mais recente de um registro em um grupo de atributos.

  • Off-line: armazena dados do seu grupo de atributos em um bucket do Amazon S3. Você pode armazenar seus dados offline quando não precisar de leituras de baixa latência (menos de um segundo). Você pode usar um armazenamento offline para atributos usados na exploração de dados, treinamento de modelos e inferência em lote.

  • Online e offline: armazena seus dados em um armazenamento on-line e em um armazenamento offline.

Para criar um grupo de atributos usando um nó de destino, faça o seguinte:

  1. Escolha o símbolo + ao lado do nó que contém o conjunto de dados que você gostaria de exportar.

  2. Em Adicionar destino, escolha SageMaker Feature Store.

  3. Escolha Criar grupo de atributos.

  4. Na caixa de diálogo a seguir, se seu conjunto de dados não tiver uma coluna de horário do evento, selecione Criar coluna “EventTime”.

  5. Escolha Próximo.

  6. Escolha Copiar esquema JSON. Ao criar um grupo de atributos, você cola o esquema nas definições de atributos.

  7. Escolha Criar.

  8. Em Nome do grupo de atributos, especifique um nome para seu grupo de atributos.

  9. Em Descrição (opcional), especifique uma descrição para tornar seu grupo de atributos mais detectável.

  10. Para criar um grupo de atributos para um armazenamento on-line, faça o seguinte:

    1. Selecione Ativar armazenamento online.

    2. Para a chave de criptografia do armazenamento on-line, especifique uma chave de criptografia AWS gerenciada ou uma chave de criptografia própria.

  11. Para criar um grupo de atributos para um armazenamento offline, faça o seguinte:

    1. Selecione Ativar armazenamento offline. Especifique valores para os seguintes campos:

      • Nome do bucket do S3: o nome do bucket do Amazon S3 que armazena o grupo de atributos.

      • (Opcional) Nome do diretório do conjunto de dados: O prefixo do Amazon S3 que você está usando para armazenar o grupo de atributos.

      • ARN do perfil do IAM: o perfil do IAM que tem acesso à Feature Store.

      • Formato da tabela: Formato da tabela de seu armazenamento offline. Você pode especificar Glue ou Iceberg. Glue é o formato padrão.

      • Chave de criptografia do armazenamento offline: Por padrão, o Feature Store usa uma chave do AWS Key Management Service gerenciada, mas você pode usar o campo para especificar sua própria chave.

    2. Especifique valores para os seguintes campos:

      • Nome do bucket do S3: o nome do bucket que armazena o grupo de atributos.

      • (Opcional) Nome do diretório do conjunto de dados: O prefixo do Amazon S3 que você está usando para armazenar o grupo de atributos.

      • ARN do perfil do IAM: o perfil do IAM que tem acesso à Feature Store.

      • Chave de criptografia do armazenamento offline: Por padrão, o Feature Store usa uma chave do AWS gerenciada, mas você pode usar o campo para especificar sua própria chave.

  12. Escolha Continuar.

  13. Selecione JSON.

  14. Remova os colchetes de posição na janela.

  15. Cole o texto JSON da Etapa 6.

  16. Escolha Continuar.

  17. Em RECORD IDENTIFIER FEATURE NAME, escolha a coluna em seu conjunto de dados que tem identificadores exclusivos para cada registro em seu conjunto de dados.

  18. Em Nome do atributo no horário do evento, escolha a coluna com os valores do timestamp.

  19. Escolha Continuar.

  20. (Opcional) Adicione etiquetas para tornar seu grupo de atributos mais detectável.

  21. Escolha Continuar.

  22. Escolha Criar grupo de atributos.

  23. Volte para o fluxo do Data Wrangler e escolha o ícone de atualização ao lado da barra de pesquisa do Grupo de atributos.

nota

Se você já criou um nó de destino para um grupo de atributos em um fluxo, não poderá criar outro nó de destino para o mesmo grupo de atributos. Se você quiser criar outro nó de destino para o mesmo grupo de atributos, deverá criar outro arquivo de fluxo.

Use o procedimento a seguir para criar um trabalho Data Wrangler.

Crie um trabalho na página Fluxo de dados e escolha os nós de destino que você deseja exportar.

  1. Escolha Criar trabalho. A imagem a seguir mostra o painel que aparece depois que você seleciona Criar tarefa.

  2. Em Nome do trabalho, especifique o nome do trabalho de exportação.

  3. Selecione os nós de destino que deseja exportar.

  4. (Opcional) Para Chave KMS de saída, especifique um ARN, ID ou alias de uma chave AWS KMS. Uma chave do KMS é uma chave criptográfica. Você pode usar a chave para criptografar os dados de saída do trabalho. Para obter mais informações sobre chaves do AWS KMS, consulte AWS Key Management Service.

  5. A imagem a seguir mostra a página Configure trabalho com a guia Configuração do trabalho aberta.

    Exemplo de página de criação de trabalho do fluxo de dados no console do Data Wrangler.

    (Opcional) Em Parâmetros treinados, escolha Reajustar se você tiver feito o seguinte:

    • Coletou amostras do seu conjunto de dados

    • Aplicou uma transformação que usa seus dados para criar uma nova coluna no conjunto de dados

    Para obter mais informações sobre como reajustar as transformações que você fez em um conjunto de dados inteiro, consulte Reajuste as transformações em todo o conjunto de dados e exporte-as.

  6. Selecione Configurar trabalho.

  7. (Opcional) Configure o trabalho do Data Wrangler. Você pode usar o seguinte exemplo de configuração:

    • Configuração do trabalho

    • Configuração de memória Spark

    • Configuração de rede

    • Tags

    • Parâmetros

    • Programações de associados

  8. Escolha Executar.

Jupyter notebook

Use o procedimento a seguir em um caderno Jupyter para exportar para a Amazon SageMaker Feature Store.

Use o procedimento a seguir para gerar um caderno Jupyter e executá-lo para exportar seu fluxo do Data Wrangler para o Feature Store.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha Amazon SageMaker Feature Store (via caderno Jupyter).

  4. Executar o caderno Jupyter.

Exemplo de fluxo de dados mostrando como exportar seu fluxo do Data Wrangler no console do Data Wrangler.

A execução de um caderno Jupyter executa um trabalho do Data Wrangler. A execução de um trabalho do Data Wrangler inicia um trabalho de processamento do SageMaker. O trabalho de processamento insere o fluxo em um arquivo de atributos online e offline.

Importante

O perfil do IAM que você usa para executar esse caderno deve ter as seguintes políticas AWS gerenciadas anexadas: AmazonSageMakerFullAccess e AmazonSageMakerFeatureStoreAccess.

Você só precisa habilitar um arquivo de atributos online ou offline ao criar um grupo de atributos. Você também pode habilitar ambos. Para desativar a criação do armazenamento on-line, defina EnableOnlineStore comoFalse:

# Online Store Configuration online_store_config = { "EnableOnlineStore": False }

O caderno usa os nomes das colunas e os tipos do quadro de dados que você exporta para criar um esquema de grupo de atributos, que é usado para criar um grupo de atributos. Um grupo de atributos é um grupo de atributos definidos no arquivo de atributos para descrever um registro. O grupo de atributos define o esquema e os atributo contidos no grupo de atributos. Uma definição de grupo de atributos é composta por uma lista de atributos, um nome de atributo de identificador de registro, nome do atributo no horário do evento e configurações para seu armazenamento on-line e armazenamento offline.

Cada atributo em um grupo de atributos pode ter um dos seguintes tipos: String, Fracionário ou Integral. Se uma coluna em seu quadro de dados exportado não for um desses tipos, o padrão é String.

Veja a seguir um exemplo de um esquema de grupo de atributos:

column_schema = [ { "name": "Height", "type": "long" }, { "name": "Input", "type": "string" }, { "name": "Output", "type": "string" }, { "name": "Sum", "type": "string" }, { "name": "Time", "type": "string" } ]

Além disso, você deve especificar um nome de identificador de registro e um nome do atributo no horário do evento:

  • O nome do identificador de registro é o nome do atributo cujo valor identifica de forma exclusiva um registro definido no arquivo de atributos. Somente o registro mais recente por valor de identificador é armazenado no armazenamento on-line. O nome do atributo do identificador de registro deve ser um dos nomes das definições do atributo.

  • O Nome do atributo no horário do evento é o nome do atributo que armazena o EventTime de um registro em um grupo de atributos. Um EventTime é um período no tempo em que ocorre um novo evento que corresponde à criação ou atualização de um registro em um atributo. Todos os registros no grupo de atributos devem ter um correspondente EventTime.

O caderno usa essas configurações para criar um grupo de atributos, processar seus dados em grande escala e, em seguida, ingerir os dados processados em seus repositórios de atributos online e offline. Para saber mais, consulte Fontes de dados e ingestão.

O caderno usa essas configurações para criar um grupo de atributos, processar seus dados em grande escala e, em seguida, ingerir os dados processados em seus repositórios de atributos online e offline. Para saber mais, consulte Fontes de dados e ingestão.

Reajuste as transformações em todo o conjunto de dados e exporte-as

Quando você importa dados, o Data Wrangler usa uma amostra dos dados para aplicar as codificações. Por padrão, o Data Wrangler usa as primeiras 50.000 linhas como amostra, mas você pode importar todo o conjunto de dados ou usar um método de amostragem diferente. Para obter mais informações, consulte Importar.

As transformações a seguir usam seus dados para criar uma coluna no conjunto de dados:

Se você usou a amostragem para importar seus dados, as transformações anteriores usarão somente os dados da amostra para criar a coluna. A transformação pode não ter usado todos os dados relevantes. Por exemplo, se você usar a transformação Codificar Categórica, pode ter havido uma categoria em todo o conjunto de dados que não estava presente na amostra.

Você pode usar um nó de destino ou um caderno Jupyter para reajustar as transformações em todo o conjunto de dados. Quando o Data Wrangler exporta as transformações no fluxo, ele cria um trabalho de processamento do SageMaker. Quando o trabalho de processamento é concluído, o Data Wrangler salva os seguintes arquivos no local padrão do Amazon S3 ou em um local do S3 que você especificar:

  • O arquivo de fluxo do Data Wrangler que especifica as transformações que são reajustadas ao conjunto de dados

  • O conjunto de dados com as transformações de reajuste aplicadas a ele

Você pode abrir um arquivo de fluxo do Data Wrangler no Data Wrangler e aplicar as transformações em um conjunto de dados diferente. Por exemplo, se você aplicou as transformações a um conjunto de dados de treinamento, pode abrir e usar o arquivo de fluxo do Data Wrangler para aplicar as transformações a um conjunto de dados usado para inferência.

Para obter informações sobre o uso de nós de destino para reajustar transformações e exportar, consulte as seguintes páginas:

Use o procedimento a seguir para executar um caderno Jupyter para reajustar as transformações e exportar os dados.

Para executar um caderno Jupyter, reajustar as transformações e exportar seu fluxo do Data Wrangler, faça o seguinte:

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha o local para o qual você está exportando os dados.

  4. Para o objeto refit_trained_params, defina refit como True.

  5. Para o campo output_flow, especifique o nome do arquivo de fluxo de saída com as transformações de reajuste.

  6. Executar o caderno Jupyter.

Crie um cronograma para processar automaticamente novos dados

Se você estiver processando dados periodicamente, poderá criar um cronograma para executar o trabalho de processamento automaticamente. Por exemplo, você pode criar uma programação que execute um trabalho de processamento automaticamente quando você obtiver novos dados. Para obter mais informações sobre esses processos, consulte Exportar para o Amazon S3. e Exportar para a Amazon SageMaker Feature Store.

Ao criar um trabalho, você deve especificar um perfil do IAM que tenha permissões para criar o trabalho. Por padrão, o perfil do IAM que você usa para acessar o Data Wrangler é o SageMakerExecutionRole.

As permissões a seguir permitem que o Data Wrangler acesse o EventBridge e permita que o EventBridge execute trabalhos de processamento:

  • Adicione a política gerenciada pela AWS ao perfil de execução do Amazon SageMaker Studio Classic que fornece ao Data Wrangler permissões para usar o EventBridge:

    arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess

    Para obter mais informações sobre a política, consulte AWSPolíticas gerenciadas para EventBridge.

  • Adicione a seguinte política à perfil do IAM que você especificou ao criar um trabalho no Data Wrangler:

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker:StartPipelineExecution", "Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*" } ] }

    Se você estiver usando o perfil padrão do IAM, adicione a política anterior ao perfil de execução do Amazon SageMaker Studio Classic.

    Adicione a seguinte política de confiança à função para permitir que a EventBridge a assuma:

    { "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
Importante

Quando você cria uma agenda, o Data Wrangler cria uma no eventRule EventBridge. Você incorre em cobranças pelas regras de eventos que você cria e pelas instâncias usadas para executar o trabalho de processamento.

Para obter informações sobre preços do EventBridge, consulte Preços do Amazon EventBridge. Para obter informações sobre os preços dos trabalhos de processamento, consulte os preços do Amazon SageMaker.

É possível criar uma programação usando um dos seguintes métodos:

  • Expressões CRON

    nota

    O Data Wrangler não é compatível com as seguintes expressões:

    • LW#

    • Abreviações para dias

    • Abreviações para meses

  • Expressões RATE

  • Recorrente: defina um intervalo de hora em hora ou diário para executar o trabalho.

  • Horário específico: defina dias e horários específicos para executar o trabalho.

As seções a seguir fornecem procedimentos para criar empregos.

CRON

Use o procedimento a seguir para criar uma agenda com uma expressão CRON.

Para especificar um cronograma com uma expressão CRON, faça o seguinte:

  1. Abra seu fluxo do Data Wrangler.

  2. Escolha Criar trabalho.

  3. (Opcional) Para a chave KMS de saída, especifique uma AWS KMS chave para configurar a saída do trabalho.

  4. Escolha Próximo, 2. Configurar o trabalho.

  5. Selecione Associar agendas.

  6. Escolha Criar uma nova programação.

  7. Em Nome do agendamento, especifique o nome do agendamento.

  8. Em Frequência de execução, escolha CRON.

  9. Especifique uma expressão CRON válida.

  10. Escolha Criar.

  11. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  12. Escolha uma das seguintes opções:

    • Agende e execute agora: Data Wrangler, o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento: Data Wrangler, o trabalho só é executado nas programações que você especificar.

  13. Escolha Executar

RATE

Use o procedimento a seguir para criar uma programação com uma expressão RATE.

Para especificar uma programação com uma expressão RATE, faça o seguinte:

  1. Abra seu fluxo do Data Wrangler.

  2. Escolha Criar trabalho.

  3. (Opcional) Para a chave KMS de saída, especifique uma AWS KMS chave para configurar a saída do trabalho.

  4. Escolha Próximo, 2. Configurar o trabalho.

  5. Selecione Associar agendas.

  6. Escolha Criar uma nova programação.

  7. Em Nome do agendamento, especifique o nome do agendamento.

  8. Em Frequência de execução, escolha Taxa.

  9. Em Valor, especifique um valor inteiro.

  10. Em Unidade, selecione uma das seguintes opções:

    • Minutos

    • Horas

    • Dias

  11. Escolha Criar.

  12. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  13. Escolha uma das seguintes opções:

    • Agende e execute agora: Data Wrangler, o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento: Data Wrangler, o trabalho só é executado nas programações que você especificar.

  14. Escolha Executar

Recurring

Use o procedimento a seguir para criar um cronograma que execute um trabalho de forma recorrente.

Para especificar um cronograma com uma expressão CRON, faça o seguinte:

  1. Abra seu fluxo do Data Wrangler.

  2. Escolha Criar trabalho.

  3. (Opcional) Para a chave KMS de saída, especifique uma AWS KMS chave para configurar a saída do trabalho.

  4. Escolha Próximo, 2. Configurar o trabalho.

  5. Selecione Associar agendas.

  6. Escolha Criar uma nova programação.

  7. Em Nome do agendamento, especifique o nome do agendamento.

  8. Em Frequência de execução, verifique se a opção Recorrente está selecionada por padrão.

  9. Para Cada x horas, especifique a frequência horária com que o trabalho é executado durante o dia. Os valores válidos são números inteiros no intervalo inclusivo de 1 e 23.

  10. Para Em dias, escolha uma das seguintes opções:

    • Todos os dias

    • Finais de semana

    • Dias da semana

    • Selecionar dias

    1. (Opcional) Se você selecionou Selecionar dias, escolha os dias da semana para executar o trabalho.

    nota

    A programação é reiniciada todos os dias. Se você agendar um trabalho para ser executado a cada cinco horas, ele será executado nos seguintes horários do dia:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  11. Escolha Criar.

  12. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  13. Escolha uma das seguintes opções:

    • Agende e execute agora: Data Wrangler, o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento: Data Wrangler, o trabalho só é executado nas programações que você especificar.

  14. Escolha Executar

Specific time

Use o procedimento a seguir para criar uma programação que execute um trabalho em horários específicos.

Para especificar um cronograma com uma expressão CRON, faça o seguinte:

  1. Abra seu fluxo do Data Wrangler.

  2. Escolha Criar trabalho.

  3. (Opcional) Para a chave KMS de saída, especifique uma AWS KMS chave para configurar a saída do trabalho.

  4. Escolha Próximo, 2. Configurar o trabalho.

  5. Selecione Associar agendas.

  6. Escolha Criar uma nova programação.

  7. Em Nome do agendamento, especifique o nome do agendamento.

  8. Escolha Criar.

  9. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  10. Escolha uma das seguintes opções:

    • Agende e execute agora: Data Wrangler, o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento: Data Wrangler, o trabalho só é executado nas programações que você especificar.

  11. Escolha Executar

Você pode usar o Amazon SageMaker Studio Classic para ver os trabalhos que estão programados para execução. Seus trabalhos de processamento são executados dentro do Pipelines. Cada trabalho de processamento tem seu próprio pipeline. Ele é executado como uma etapa de processamento dentro do pipeline. Você pode ver as agendas que você criou em um funil. Para obter informações sobre como visualizar um pipeline, consulte Visualizar os detalhes de um pipeline.

Use o procedimento a seguir para visualizar os trabalhos que você programou.

Para obter os trabalhos que você programou, faça o seguinte:

  1. Abra o Amazon SageMaker Studio Classic.

  2. Abra o Pipelines

  3. Veja os pipelines dos trabalhos que você criou.

    O pipeline que executa o trabalho usa o nome do trabalho como prefixo. Por exemplo, se você criou um trabalho chamado housing-data-feature-enginnering, o nome do pipeline é data-wrangler-housing-data-feature-engineering.

  4. Escolha o pipeline que contém seu trabalho.

  5. Visualize o status dos pipelines. Pipelines com status de Bem-sucedido executaram o trabalho de processamento com êxito.

Para interromper a execução do trabalho de processamento, faça o seguinte:

Para interromper a execução de um trabalho de processamento, exclua a regra de evento que especifica a programação. A exclusão de uma regra de evento interrompe a execução de todos os trabalhos associados à programação. Para obter informações sobre a exclusão de uma regra, consulte Como desativar ou excluir uma regra do Amazon EventBridge.

Você também pode interromper e excluir os pipelines associados aos agendamentos. Para obter informações sobre como interromper um pipeline, consulte StopPipelineExecution. Para obter mais informações sobre exclusão de um pipeline, consulte DeletePipeline.