Export - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Export

No fluxo do Data Wrangler, você pode exportar algumas ou todas as transformações que você fez para seus pipelines de processamento de dados.

Um fluxo do Data Wrangler é a série de etapas de preparação de dados que você executou em seus dados. Na preparação de dados, você realiza uma ou mais transformações em seus dados. Cada transformação é feita usando uma etapa de transformação. O fluxo tem uma série de nós que representam a importação de seus dados e as transformações que você realizou. Para obter um exemplo de nós, consulte as imagens a seguir.

Exemplo de fluxo de dados no console do Data Wrangler.

A imagem anterior mostra um fluxo do Data Wrangler com dois nós. O nó Fonte - amostra mostra a fonte de dados da qual você importou seus dados. O nó Tipos de dados indica que o Data Wrangler realizou uma transformação para converter o conjunto de dados em um formato utilizável.

Cada transformação que você adiciona ao fluxo do Data Wrangler aparece como um nó adicional. Para obter mais informações sobre as transformações que você pode adicionar, consulte Dados de transformação. A imagem a seguir mostra um fluxo do Data Wrangler que tem um nó Renomear coluna para alterar o nome de uma coluna em um conjunto de dados.

Você pode exportar suas transformações de dados para o seguinte:

  • Amazon S3

  • Pipelines

  • Loja de SageMaker recursos da Amazon

  • Código Python

Importante

Recomendamos que você use a política IAM AmazonSageMakerFullAccess gerenciada para conceder AWS permissão para usar o Data Wrangler. Se você não usar a política gerenciada, poderá usar uma IAM política que dê ao Data Wrangler acesso a um bucket do Amazon S3. Para obter mais informações sobre a política, consulte Segurança e permissões.

Ao exportar seu fluxo de dados, você é cobrado pelos AWS recursos que usa. Você pode usar tags de alocação de custos para organizar e gerenciar os custos desses recursos. Você cria essas tags para seu perfil de usuário e o Data Wrangler as aplica automaticamente aos recursos usados para exportar o fluxo de dados. Para obter mais informações, consulte Usar tags de alocação de custos.

Exportar para o Amazon S3.

O Data Wrangler oferece a capacidade de exportar seus dados para um local dentro de um bucket do Amazon S3. Você pode especificar o local usando um dos seguintes métodos:

  • Nó de destino — Onde o Data Wrangler armazena os dados depois de processá-los.

  • Exportar para — Exporta os dados resultantes de uma transformação para o Amazon S3.

  • Exportar dados — Para conjuntos de dados pequenos, pode exportar rapidamente os dados que você transformou.

Use as seções a seguir para saber mais sobre cada um desses métodos.

Destination Node

Se você quiser enviar uma série de etapas de processamento de dados que você executou para o Amazon S3, crie um nó de destino. Um nó de destino informa ao Data Wrangler onde armazenar os dados depois de processá-los. Depois de criar um nó de destino, você cria um trabalho de processamento para gerar os dados. Um trabalho de processamento é um trabalho SageMaker de processamento da Amazon. Quando você usa um nó de destino, ele executa os recursos computacionais necessários para gerar os dados que você transformou no Amazon S3.

Você pode usar um nó de destino para exportar algumas das transformações ou todas as transformações que você fez em seu fluxo do Data Wrangler.

Você pode usar vários nós de destino para exportar diferentes transformações ou conjuntos de transformações. O exemplo a seguir mostra dois nós de destino em um único fluxo do Data Wrangler.

Exemplo de fluxo de dados mostrando dois nós de destino no console do Data Wrangler.

Você pode usar o procedimento a seguir para criar nós de destino e exportar para um bucket do Amazon S3.

Para exportar seu fluxo de dados, você cria nós de destino e um trabalho do Data Wrangler para exportar os dados. A criação de uma tarefa do Data Wrangler inicia uma tarefa SageMaker de processamento para exportar seu fluxo. Você pode escolher os nós de destino que deseja exportar depois de criá-los.

nota

Você pode escolher Criar tarefa no fluxo do Data Wrangler para ver as instruções de uso de um trabalho de processamento.

Use o procedimento a seguir para criar nós de destino.

  1. Escolha o + ao lado dos nós que representam as transformações que você deseja exportar.

  2. Escolha Adicionar destino.

    Exemplo de fluxo de dados mostrando como adicionar um destino no console do Data Wrangler.
  3. Escolha Amazon S3.

    Exemplo de fluxo de dados mostrando como adicionar um destino no console do Data Wrangler.
  4. Especifique os seguintes campos:

    • Nome do conjunto de dados — O nome que você especifica para o conjunto de dados que você está exportando.

    • Tipo de arquivo — O formato do arquivo que você está exportando.

    • Delimitador (CSVe somente arquivos Parquet) — O valor usado para separar outros valores.

    • Compressão (CSVe somente arquivos Parquet) — O método de compactação usado para reduzir o tamanho do arquivo. É possível usar os seguintes métodos de compressão:

      • bzip2

      • desinflar

      • gzip

    • (Opcional) Localização do Amazon S3 — A localização do S3 que você está usando para gerar os arquivos.

    • (Opcional) Número de partições — O número de conjuntos de dados que você está gravando como saída do trabalho de processamento.

    • (Opcional) Partição por coluna — grava todos os dados com o mesmo valor exclusivo da coluna.

    • (Opcional) Parâmetros de inferência — Selecionar Gerar artefato de inferência aplica todas as transformações que você usou no fluxo do Data Wrangler aos dados que chegam ao seu pipeline de inferência. O modelo em seu pipeline faz previsões sobre os dados transformados.

  5. Escolha Adicionar destino.

Use o procedimento a seguir para criar um trabalho em processamento.

Crie um trabalho na página Fluxo de dados e escolha os nós de destino que você deseja exportar.

nota

Você pode escolher Criar tarefa no fluxo do Data Wrangler para ver as instruções para criar um trabalho de processamento.

  1. Escolha Criar trabalho. A imagem a seguir mostra o painel que aparece depois que você seleciona Criar tarefa.

    Exemplo de painel de trabalho de criação de fluxo de dados no console do Data Wrangler.
  2. Em Nome do trabalho, especifique o nome do trabalho de exportação.

  3. Selecione os nós de destino que deseja exportar.

  4. (Opcional) Especifique uma AWS KMS chaveARN. Uma AWS KMS chave é uma chave criptográfica que você pode usar para proteger seus dados. Para obter mais informações sobre AWS KMS chaves, consulte AWS Key Management Service.

  5. (Opcional) Em Parâmetros treinados, escolha Reajustar se você tiver feito o seguinte:

    • Coletou amostras do seu conjunto de dados

    • Aplicou uma transformação que usa seus dados para criar uma nova coluna no conjunto de dados

    Para obter mais informações sobre como reajustar as transformações que você fez em um conjunto de dados inteiro, consulte Reajuste as transformações em todo o conjunto de dados e exporte-as.

    nota

    Para dados de imagem, o Data Wrangler exporta as transformações que você fez em todas as imagens. Reajustar as transformações não é aplicável ao seu caso de uso.

  6. Selecione Configurar trabalho. A imagem a seguir mostra a página Configurar tarefa.

    Exemplo de página de trabalho de configuração de fluxo de dados no console do Data Wrangler.
  7. (Opcional) Configure o trabalho do Data Wrangler. Você pode usar o seguinte exemplo de configuração:

    • Configuração do trabalho

    • Configuração de memória Spark

    • Configuração de rede

    • Tags

    • Parâmetros

    • Programações de associados

  8. Escolha Executar.

Export to

Como alternativa ao uso de um nó de destino, você pode usar a opção Exportar para exportar seu fluxo do Data Wrangler para o Amazon S3 usando um caderno Jupyter. Você pode escolher qualquer nó de dados em seu fluxo do Data Wrangler e exportá-lo. A exportação do nó de dados exporta a transformação que o nó representa e as transformações que a precedem.

Use o procedimento a seguir para gerar um caderno Jupyter e executá-lo para exportar seu fluxo do Data Wrangler para o Amazon S3.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha o Amazon S3 (via caderno Jupyter).

  4. Executar o caderno Jupyter.

    Exemplo de fluxo de dados mostrando como exportar seu fluxo do Data Wrangler no console do Data Wrangler.

Quando você executa o notebook, ele exporta seu fluxo de dados (arquivo.flow) da Região da AWS mesma forma que o fluxo do Data Wrangler.

O notebook fornece opções que você pode usar para configurar o trabalho de processamento e os dados que ele gera.

Importante

Fornecemos configurações de trabalho para configurar a saída de seus dados. Para as opções de particionamento e memória do driver, é altamente recomendável que você não especifique uma configuração, a menos que já tenha conhecimento sobre elas.

Em Configuração do trabalho, você pode configurar o seguinte:

  • output_content_type — O tipo de conteúdo do arquivo de saída. Usa CSV como formato padrão, mas você pode especificar Parquet.

  • delimiter— O caractere usado para separar valores no conjunto de dados ao gravar em um CSV arquivo.

  • compression — Se definido, comprime o arquivo de saída. Usa gzip como formato de compactação padrão.

  • num_partitions — O número de partições ou arquivos que o Data Wrangler grava como saída.

  • partition_by — Os nomes das colunas que você usa para particionar a saída.

Para alterar o formato do arquivo de saída de CSV para Parquet, altere o valor de "CSV" para"Parquet". Para o restante dos campos anteriores, remova o comentário das linhas que contêm os campos que você deseja especificar.

Em (Opcional) Configurar a memória do driver do cluster Spark, você pode configurar as propriedades do Spark para o trabalho, como a memória do driver do Spark, no dicionário config.

O seguinte mostra o dicionário config.

config = json.dumps({ "Classification": "spark-defaults", "Properties": { "spark.driver.memory": f"{driver_memory_in_mb}m", } })

Para aplicar a configuração à tarefa de processamento, remova o comentário das seguintes linhas:

# data_sources.append(ProcessingInput( # source=config_s3_uri, # destination="/opt/ml/processing/input/conf", # input_name="spark-config", # s3_data_type="S3Prefix", # s3_input_mode="File", # s3_data_distribution_type="FullyReplicated" # ))
Export data

Se você tiver uma transformação em um pequeno conjunto de dados que deseja exportar rapidamente, poderá usar o método Exportar dados. Quando você começa a escolher Exportar dados, o Data Wrangler trabalha de forma síncrona para exportar os dados que você transformou para o Amazon S3. Você não pode usar o Data Wrangler até que ele termine de exportar seus dados ou cancele a operação.

Para obter informações sobre como usar o método Exportar dados em seu fluxo do Data Wrangler, consulte o procedimento a seguir.

Para usar o método Exportar dados:

  1. Escolha um nó em seu fluxo do Data Wrangler abrindo-o (clicando duas vezes nele).

    Exemplo de fluxo de dados mostrando como exportar dados no console do Data Wrangler.
  2. Configure como você deseja exportar os dados.

  3. Escolha Exportar dados.

Quando você exporta seu fluxo de dados para um bucket do Amazon S3, o Data Wrangler armazena uma cópia do arquivo de fluxo no bucket do S3. Ele armazena o arquivo de fluxo sob o prefixo data_wrangler_flows. Se você usar o bucket padrão do Amazon S3 para armazenar seus arquivos de fluxo, ele usa a seguinte convenção de nomenclatura: sagemaker-region-account number. Por exemplo, se o número da sua conta for 111122223333 e você estiver usando o Studio Classic em us-east-1, seus conjuntos de dados importados serão armazenados em. sagemaker-us-east-1-111122223333 Neste exemplo, seus arquivos.flow criados em us-east-1 são armazenados em s3://sagemaker-region-account number/data_wrangler_flows/.

Exportação para oleodutos

Quando quiser criar e implantar fluxos de trabalho de aprendizado de máquina (ML) em grande escala, você pode usar o Pipelines para criar fluxos de trabalho que gerenciam e implantam trabalhos. SageMaker Com o Pipelines, você pode criar fluxos de trabalho que gerenciam seus trabalhos de preparação de SageMaker dados, treinamento de modelos e implantação de modelos. Você pode usar os algoritmos primários SageMaker oferecidos usando Pipelines. Para obter mais informações sobre pipelines, consulte SageMaker Pipelines.

Quando você exporta uma ou mais etapas do seu fluxo de dados para Pipelines, o Data Wrangler cria um notebook Jupyter que você pode usar para definir, instanciar, executar e gerenciar um pipeline.

Use um caderno Jupyter para criar um pipeline

Use o procedimento a seguir para criar um notebook Jupyter para exportar seu fluxo do Data Wrangler para Pipelines.

Use o procedimento a seguir para gerar um notebook Jupyter e executá-lo para exportar seu fluxo do Data Wrangler para Pipelines.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha Pipelines (via Jupyter Notebook).

  4. Executar o caderno Jupyter.

Exemplo de fluxo de dados mostrando como exportar seu fluxo do Data Wrangler no console do Data Wrangler.

Você pode usar o caderno Jupyter que o Data Wrangler produz para definir um pipeline. O pipeline inclui as etapas de processamento de dados que são definidas pelo fluxo do Data Wrangler.

Você pode adicionar etapas adicionais ao seu pipeline adicionando etapas à lista steps no código a seguir no notebook:

pipeline = Pipeline( name=pipeline_name, parameters=[instance_type, instance_count], steps=[step_process], #Add more steps to this list to run in your Pipeline )

Para obter mais informações sobre como definir pipelines, consulte Definir SageMaker pipeline.

Exportar para um endpoint de inferência

Use seu fluxo do Data Wrangler para processar dados no momento da inferência criando um pipeline de inferência SageMaker serial a partir do fluxo do Data Wrangler. Um pipeline de inferência é uma série de etapas que resulta em um modelo treinado fazendo previsões sobre novos dados. Um pipeline de inferência serial no Data Wrangler transforma os dados brutos e os fornece ao modelo de machine learning para uma previsão. Você cria, executa e gerencia o pipeline de inferência a partir de um notebook Jupyter no Studio Classic. Para obter mais informações sobre o acesso ao caderno, consulte Use um caderno Jupyter para criar um endpoint de inferência.

No notebook, você pode treinar um modelo de machine learning ou especificar um que já tenha treinado. Você pode usar o Amazon SageMaker Autopilot ou XGBoost treinar o modelo usando os dados que você transformou em seu fluxo do Data Wrangler.

O pipeline fornece a capacidade de realizar inferências em lote ou em tempo real. Você também pode adicionar o fluxo do Data Wrangler ao SageMaker Model Registry. Para obter mais informações sobre modelos de host, consulte Endpoints multimodelo.

Importante

Você não pode exportar seu fluxo do Data Wrangler para um endpoint de inferência se ele tiver as seguintes transformações:

  • Ingressar

  • concatenar

  • Agrupar por

Se você precisar usar as transformações anteriores para preparar seus dados, use o procedimento a seguir.

Para preparar seus dados para inferência com transformações sem suporte
  1. Crie um fluxo do Data Wrangler.

  2. Aplique as transformações anteriores que não são compatíveis.

  3. Exportar os dados para um bucket do Amazon S3.

  4. Crie um fluxo de Data Wrangler separado.

  5. Importe os dados que você exportou do fluxo anterior.

  6. Aplique as transformações restantes.

  7. Crie um pipeline de inferência serial usando o caderno Jupyter que fornecemos.

Para obter informações sobre como exportar dados para um bucket do Amazon S3, consulte Exportar para o Amazon S3.. Para obter informações sobre como abrir o caderno Jupyter usado para criar o pipeline de inferência serial, consulte Use um caderno Jupyter para criar um endpoint de inferência.

O Data Wrangler ignora as transformações que removem dados no momento da inferência. Por exemplo, o Data Wrangler ignora a transformação Lidar com valores ausentes se você usar a configuração Drop missing.

Se você reajustou as transformações em todo o seu conjunto de dados, as transformações são transferidas para seu pipeline de inferência. Por exemplo, se você usou o valor mediano para imputar valores ausentes, o valor médio do reajuste da transformação será aplicado às suas solicitações de inferência. Você pode reajustar as transformações do seu fluxo do Data Wrangler ao usar o caderno Jupyter ou ao exportar seus dados para um pipeline de inferência. Para informações sobre reajustar transformações, consulte Reajuste as transformações em todo o conjunto de dados e exporte-as.

O pipeline de inferência serial suporta os seguintes tipos de dados para as cadeias de caracteres de entrada e saída. Cada tipo de dados tem um conjunto de requisitos.

Tipos de dados compatíveis
  • text/csv— o tipo de dados para strings CSV

    • A string não pode ter um cabeçalho.

    • Os atributos usados para o pipeline de inferência devem estar na mesma ordem dos atributos no conjunto de dados de treinamento.

    • Deve haver um delimitador de vírgula entre os atributos.

    • Os registros devem ser delimitados por um caractere de nova linha.

    Veja a seguir um exemplo de uma CSV string formatada de forma válida que você pode fornecer em uma solicitação de inferência.

    abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890
  • application/json— o tipo de dados para strings JSON

    • Os atributos usados no conjunto de dados para o pipeline de inferência devem estar na mesma ordem dos atributos no conjunto de dados de treinamento.

    • Os dados devem ter um esquema específico. Você define o esquema como um único objeto instances que tem um conjunto de features. Cada objeto features representa uma observação.

    Veja a seguir um exemplo de uma JSON string formatada de forma válida que você pode fornecer em uma solicitação de inferência.

    { "instances": [ { "features": ["abc", 0.0, "Doe, John", 12345] }, { "features": ["def", 1.1, "Doe, Jane", 67890] } ] }

Use um caderno Jupyter para criar um endpoint de inferência

Use o procedimento a seguir para exportar seu fluxo do Data Wrangler para criar um pipeline de inferência.

Para criar um pipeline de inferência usando um caderno Jupyter, faça o seguinte.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha SageMaker Inference Pipeline (via Jupyter Notebook).

  4. Executar o caderno Jupyter.

Quando você executa o caderno Jupyter, ele cria um artefato de fluxo de inferência. Um artefato de fluxo de inferência é um arquivo de fluxo do Data Wrangler com metadados adicionais usados para criar o pipeline de inferência serial. O nó que você está exportando abrange todas as transformações dos nós anteriores.

Importante

O Data Wrangler precisa do artefato do fluxo de inferência para executar o pipeline de inferência. Você não pode usar seu próprio arquivo de fluxo como artefato. Você deve criá-lo usando o procedimento anterior.

Exportar para código Python

Para exportar todas as etapas do fluxo de dados para um arquivo Python que você possa integrar manualmente a qualquer fluxo de trabalho de processamento de dados, use o procedimento a seguir.

Use o procedimento a seguir para gerar um caderno Jupyter e executá-lo para exportar seu fluxo do Data Wrangler para o código Python.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha Python Code.

  4. Executar o caderno Jupyter.

Exemplo de fluxo de dados mostrando como exportar seu fluxo do Data Wrangler no console do Data Wrangler.

Pode ser necessário configurar o script Python para que seja executado no seu pipeline. Por exemplo, se você estiver executando um ambiente Spark, certifique-se de executar o script em um ambiente que tenha permissão para acessar AWS recursos.

Exportar para a Amazon SageMaker Feature Store

Você pode usar o Data Wrangler para exportar recursos que você criou para a Amazon SageMaker Feature Store. Um atributo é uma coluna no seu conjunto de dados. A Feature Store é uma loja centralizada para atributos e seus metadados associados. Você pode usar o Feature Store para criar, compartilhar e gerenciar dados selecionados para o desenvolvimento de machine learning (ML). Armazenamentos centralizados tornam seus dados mais detectáveis e reutilizáveis. Para obter mais informações sobre a Feature Store, consulte Amazon SageMaker Feature Store.

Um conceito central na Feature Store é um grupo de atributos. Um grupo de atributos é uma coleção de atributos, seus registros (observações) e metadados associados. É semelhante a uma tabela em um banco de dados.

Você pode usar o Data Wrangler para realizar uma destas ações:

  • Atualize um grupo de atributos existente com novos registros. Um registro é uma observação no conjunto de dados.

  • Crie um novo grupo de atributos a partir de um nó em seu fluxo do Data Wrangler. O Data Wrangler adiciona as observações de seus conjuntos de dados como registros em seu grupo de atributos.

Se você estiver atualizando um grupo de atributos existente, o esquema do seu conjunto de dados deverá corresponder ao esquema do grupo de atributos. Todos os registros no grupo de atributos são substituídos pelas observações em seu conjunto de dados.

Você pode usar um caderno Jupyter ou um nó de destino para atualizar seu grupo de atributos com as observações no conjunto de dados.

Se seus grupos de recursos com o formato de tabela Iceberg tiverem uma chave de criptografia de loja off-line personalizada, certifique-se de conceder permissões de uso à IAM que você está usando para o trabalho do Amazon SageMaker Processing. No mínimo, você deve conceder permissões para criptografar os dados que você está gravando no Amazon S3. Para conceder as permissões, dê à IAM função a capacidade de usar GenerateDataKeyo. Para obter mais informações sobre como conceder permissões a IAM funções para usar AWS KMS chaves, consulte https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html

Destination Node

Se você quiser enviar uma série de etapas de processamento de dados que você executou para um grupo de atributos, você pode criar um nó de destino. Quando você cria e executa um nó de destino, o Data Wrangler atualiza um grupo de atributos com seus dados. Também é possível criar um novo grupo de atributos a partir da interface do nó de destino. Depois de criar um nó de destino, você cria um trabalho de processamento para gerar os dados. Um trabalho de processamento é um trabalho SageMaker de processamento da Amazon. Quando você está usando um nó de destino, ele executa os atributos computacionais necessários para gerar os dados que você transformou no grupo de atributos.

Você pode usar um nó de destino para exportar algumas das transformações ou todas as transformações que você fez em seu fluxo do Data Wrangler.

Use o procedimento a seguir para criar um nó de destino para atualizar um grupo de atributos com as observações do seu conjunto de dados.

Para atualizar um grupo de atributos usando um nó de destino, faça o seguinte.

nota

Você pode escolher Criar tarefa no fluxo do Data Wrangler para ver as instruções de uso de um trabalho de processamento para atualizar o grupo de atributos.

  1. Escolha o símbolo + ao lado do nó que contém o conjunto de dados que você gostaria de exportar.

  2. Em Adicionar destino, escolha SageMaker Feature Store.

    Exemplo de fluxo de dados mostrando como adicionar um destino no console do Data Wrangler.
  3. Escolha (clique duas vezes) no grupo de atributos. O Data Wrangler verifica se o esquema do grupo de atributos corresponde ao esquema dos dados que você está usando para atualizar o grupo de atributos.

  4. (Opcional) Selecione Exportar para armazenamento offline somente para grupos de atributos que tenham um armazenamento on-line e um armazenamento offline. Essa opção só atualiza o armazenamento offline com observações do seu conjunto de dados.

  5. Depois que o Data Wrangler validar o esquema do seu conjunto de dados, escolha Adicionar.

Use o procedimento a seguir para criar um novo grupo de atributos com dados do conjunto de dados.

Você pode armazenar seu grupo de atributos por meio de uma das seguintes maneiras:

  • On-line — cache de baixa latência e alta disponibilidade para um grupo de atributos que fornece pesquisa de registros em tempo real. O armazenamento on-line permite acesso rápido ao valor mais recente de um registro em um grupo de atributos.

  • Off-line: armazena dados do seu grupo de atributos em um bucket do Amazon S3. Você pode armazenar seus dados off-line quando não precisar de leituras de baixa latência (menos de um segundo). Você pode usar um armazenamento offline para atributos usados na exploração de dados, treinamento de modelos e inferência em lote.

  • Online e offline — armazena seus dados em um armazenamento on-line e em um armazenamento offline.

Para criar um grupo de atributos usando um nó de destino, faça o seguinte.

  1. Escolha o símbolo + ao lado do nó que contém o conjunto de dados que você gostaria de exportar.

  2. Em Adicionar destino, escolha SageMaker Feature Store.

  3. Escolha Criar grupo de atributos.

  4. Na caixa de diálogo a seguir, se seu conjunto de dados não tiver uma coluna de horário do evento, selecione Criar coluna EventTime "”.

  5. Escolha Próximo.

  6. Escolha Copiar JSON esquema. Ao criar um grupo de atributos, você cola o esquema nas definições de atributos.

  7. Escolha Criar.

  8. Em Nome do grupo de atributos, especifique um nome para seu grupo de atributos.

  9. Em Descrição (opcional), especifique uma descrição para tornar seu grupo de atributos mais detectável.

  10. Para criar um grupo de atributos para um armazenamento on-line, faça o seguinte.

    1. Selecione Ativar armazenamento online.

    2. Para a chave de criptografia da loja virtual, especifique uma chave de criptografia AWS gerenciada ou uma chave de criptografia própria.

  11. Para criar um grupo de atributos para um armazenamento offline, faça o seguinte.

    1. Selecione Ativar armazenamento off-line. Especifique valores para os seguintes campos:

      • Nome do bucket do S3: o nome do bucket do Amazon S3 que armazena o grupo de atributos.

      • (Opcional) Nome do diretório do conjunto de dados — O prefixo do Amazon S3 que você está usando para armazenar o grupo de atributos.

      • IAMFunção ARN — A IAM função que tem acesso à Feature Store.

      • Formato da tabela — Formato da tabela de seu armazenamento offline. Você pode especificar Glue ou Iceberg. Glue é o formato padrão.

      • Chave de criptografia do armazenamento offline — Por padrão, a Feature Store usa uma chave AWS Key Management Service gerenciada, mas você pode usar o campo para especificar sua própria chave.

    2. Especifique valores para os seguintes campos:

      • Nome do bucket do S3: o nome do bucket que armazena o grupo de atributos.

      • (Opcional) Nome do diretório do conjunto de dados — O prefixo do Amazon S3 que você está usando para armazenar o grupo de atributos.

      • IAMFunção ARN — A IAM função que tem acesso à feature store.

      • Chave de criptografia do armazenamento offline — Por padrão, a Feature Store usa uma chave AWS gerenciada, mas você pode usar o campo para especificar sua própria chave.

  12. Escolha Continuar.

  13. Escolha JSON.

  14. Remova os colchetes de posição na janela.

  15. Cole o JSON texto da Etapa 6.

  16. Escolha Continuar.

  17. Para RECORDIDENTIFIERFEATURENAME, escolha a coluna em seu conjunto de dados que tem identificadores exclusivos para cada registro em seu conjunto de dados.

  18. Para EVENTTIMEFEATURENAME, escolha a coluna com os valores do timestamp.

  19. Escolha Continuar.

  20. (Opcional) Adicione etiquetas para tornar seu grupo de atributos mais detectável.

  21. Escolha Continuar.

  22. Escolha Criar grupo de atributos.

  23. Volte para o fluxo do Data Wrangler e escolha o ícone de atualização ao lado da barra de pesquisa do Grupo de atributos.

nota

Se você já criou um nó de destino para um grupo de atributos em um fluxo, não poderá criar outro nó de destino para o mesmo grupo de atributos. Se você quiser criar outro nó de destino para o mesmo grupo de atributos, deverá criar outro arquivo de fluxo.

Use o procedimento a seguir para criar um trabalho Data Wrangler.

Crie um trabalho na página Fluxo de dados e escolha os nós de destino que você deseja exportar.

  1. Escolha Criar trabalho. A imagem a seguir mostra o painel que aparece depois que você seleciona Criar tarefa.

  2. Em Nome do trabalho, especifique o nome do trabalho de exportação.

  3. Selecione os nós de destino que deseja exportar.

  4. (Opcional) Em KMSChave de saídaARN, especifique um ID ou alias de uma AWS KMS chave. Uma KMS chave é uma chave criptográfica. Você pode usar a chave para criptografar os dados de saída do trabalho. Para obter mais informações sobre AWS KMS chaves, consulte AWS Key Management Service.

  5. A imagem a seguir mostra a página Configure trabalho com a guia Configuração do trabalho aberta.

    Exemplo de página de trabalho de criação de fluxo de dados no console do Data Wrangler.

    (Opcional) Em Parâmetros treinados, escolha Reajustar se você tiver feito o seguinte:

    • Coletou amostras do seu conjunto de dados

    • Aplicou uma transformação que usa seus dados para criar uma nova coluna no conjunto de dados

    Para obter mais informações sobre como reajustar as transformações que você fez em um conjunto de dados inteiro, consulte Reajuste as transformações em todo o conjunto de dados e exporte-as.

  6. Selecione Configurar trabalho.

  7. (Opcional) Configure o trabalho do Data Wrangler. Você pode usar o seguinte exemplo de configuração:

    • Configuração do trabalho

    • Configuração de memória Spark

    • Configuração de rede

    • Tags

    • Parâmetros

    • Programações de associados

  8. Escolha Executar.

Jupyter notebook

Use o procedimento a seguir em um notebook Jupyter para exportar para a Amazon SageMaker Feature Store.

Use o procedimento a seguir para gerar um caderno Jupyter e executá-lo para exportar seu fluxo do Data Wrangler para o Feature Store.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha Amazon SageMaker Feature Store (via Jupyter Notebook).

  4. Executar o caderno Jupyter.

Exemplo de fluxo de dados mostrando como exportar seu fluxo do Data Wrangler no console do Data Wrangler.

A execução de um caderno Jupyter executa um trabalho do Data Wrangler. A execução de uma tarefa do Data Wrangler inicia uma tarefa de SageMaker processamento. O trabalho de processamento insere o fluxo em uma Feature Store online e offline.

Importante

A IAM função que você usa para executar este notebook deve ter as seguintes políticas AWS gerenciadas anexadas: AmazonSageMakerFullAccess AmazonSageMakerFeatureStoreAccess e.

Você só precisa habilitar uma Feature Store online ou offline ao criar um grupo de atributos. Você também pode habilitar ambos. Para desativar a criação do armazenamento on-line, defina EnableOnlineStore comoFalse:

# Online Store Configuration online_store_config = { "EnableOnlineStore": False }

O notebook usa os nomes das colunas e os tipos do quadro de dados que você exporta para criar um esquema de grupo de atributos, que é usado para criar um grupo de atributos. Um grupo de atributos é um grupo de atributos definidos na Feature Store para descrever um registro. O grupo de atributos define o esquema e os atributo contidos no grupo de atributos. Uma definição de grupo de atributos é composta por uma lista de atributos, um nome de atributo de identificador de registro, um nome do atributo de horário do evento e configurações para seu armazenamento on-line e armazenamento offline.

Cada atributo em um grupo de atributos pode ter um dos seguintes tipos: Cadeia de caracteres, fracionário ou integral. Se uma coluna em seu quadro de dados exportado não for um desses tipos, o padrão é String.

Veja a seguir um exemplo de um esquema de grupo de atributos:

column_schema = [ { "name": "Height", "type": "long" }, { "name": "Input", "type": "string" }, { "name": "Output", "type": "string" }, { "name": "Sum", "type": "string" }, { "name": "Time", "type": "string" } ]

Além disso, você deve especificar um nome de identificador de registro e nome do atributo de horário do evento:

  • O nome do identificador de registro é o nome do atributo cujo valor identifica de forma exclusiva um registro definido no Feature Store. Somente o registro mais recente por valor de identificador é armazenado no armazenamento on-line. O nome do atributo do identificador de registro deve ser um dos nomes das definições do atributo.

  • O nome do atributo de horário do evento é o nome do atributo que armazena o EventTime de um registro em um grupo de atributos. Um EventTime é um período no tempo em que ocorre um novo evento que corresponde à criação ou atualização de um registro em um atributo. Todos os registros no grupo de atributos devem ter um correspondente EventTime.

O notebook usa essas configurações para criar um grupo de atributos, processar seus dados em grande escala e, em seguida, ingerir os dados processados em seus repositórios de atributos online e offline. Para saber mais, consulte Fontes de dados e ingestão.

O notebook usa essas configurações para criar um grupo de atributos, processar seus dados em grande escala e, em seguida, ingerir os dados processados em seus repositórios de atributos online e offline. Para saber mais, consulte Fontes de dados e ingestão.

Reajuste as transformações em todo o conjunto de dados e exporte-as

Quando você importa dados, o Data Wrangler usa uma amostra dos dados para aplicar as codificações. Por padrão, o Data Wrangler usa as primeiras 50.000 linhas como amostra, mas você pode importar todo o conjunto de dados ou usar um método de amostragem diferente. Para obter mais informações, consulte Importar.

As transformações a seguir usam seus dados para criar uma coluna no conjunto de dados:

Se você usou a amostragem para importar seus dados, as transformações anteriores usarão somente os dados da amostra para criar a coluna. A transformação pode não ter usado todos os dados relevantes. Por exemplo, se você usar a transformação Codificar Categórica, pode ter havido uma categoria em todo o conjunto de dados que não estava presente na amostra.

Você pode usar um nó de destino ou um caderno Jupyter para reajustar as transformações em todo o conjunto de dados. Quando o Data Wrangler exporta as transformações no fluxo, ele cria uma SageMaker tarefa de processamento. Quando o trabalho de processamento é concluído, o Data Wrangler salva os seguintes arquivos no local padrão do Amazon S3 ou em um local do S3 que você especificar:

  • O arquivo de fluxo do Data Wrangler que especifica as transformações que são reajustadas ao conjunto de dados

  • O conjunto de dados com as transformações de reajuste aplicadas a ele

Você pode abrir um arquivo de fluxo do Data Wrangler no Data Wrangler e aplicar as transformações em um conjunto de dados diferente. Por exemplo, se você aplicou as transformações a um conjunto de dados de treinamento, pode abrir e usar o arquivo de fluxo do Data Wrangler para aplicar as transformações a um conjunto de dados usado para inferência.

Para obter informações sobre o uso de nós de destino para reajustar transformações e exportar, consulte as seguintes páginas:

Use o procedimento a seguir para executar um caderno Jupyter para reajustar as transformações e exportar os dados.

Para executar um caderno Jupyter, reajustar as transformações e exportar seu fluxo do Data Wrangler, faça o seguinte.

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha o local para o qual você está exportando os dados.

  4. Para o objeto refit_trained_params, defina refit como True.

  5. Para o campo output_flow, especifique o nome do arquivo de fluxo de saída com as transformações de reajuste.

  6. Executar o caderno Jupyter.

Crie um cronograma para processar automaticamente novos dados

Se você estiver processando dados periodicamente, poderá criar um cronograma para executar o trabalho de processamento automaticamente. Por exemplo, você pode criar uma programação que execute um trabalho de processamento automaticamente quando você obtiver novos dados. Para obter mais informações sobre esses processos, consulte Exportar para o Amazon S3. e Exportar para a Amazon SageMaker Feature Store.

Ao criar um trabalho, você deve especificar uma IAM função que tenha permissões para criar o trabalho. Por padrão, a IAM função que você usa para acessar o Data Wrangler é a. SageMakerExecutionRole

As permissões a seguir permitem que o Data Wrangler acesse EventBridge e execute trabalhos EventBridge de processamento:

  • Adicione a seguinte política AWS gerenciada à função de execução do Amazon SageMaker Studio Classic, que fornece ao Data Wrangler permissões de uso: EventBridge

    arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess

    Para obter mais informações sobre a política, consulte políticas AWS gerenciadas para EventBridge.

  • Adicione a política a seguir à IAM função que você especifica ao criar um trabalho no Data Wrangler:

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker:StartPipelineExecution", "Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*" } ] }

    Se você estiver usando a IAM função padrão, adicione a política anterior à função de execução do Amazon SageMaker Studio Classic.

    Adicione a seguinte política de confiança à função para permitir que você EventBridge a assuma.

    { "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
Importante

Quando você cria uma agenda, o Data Wrangler cria uma eventRule entrada. EventBridge Você incorre em cobranças pelas regras de eventos que você cria e pelas instâncias usadas para executar o trabalho de processamento.

Para obter informações sobre EventBridge preços, consulte EventBridge Preços da Amazon. Para obter informações sobre o processamento de preços de trabalhos, consulte Amazon SageMaker Pricing.

É possível criar uma programação usando um dos seguintes métodos:

  • CRONexpressões

    nota

    O Data Wrangler não é compatível com as seguintes expressões:

    • LW#

    • Abreviações para dias

    • Abreviações para meses

  • RATEexpressões

  • Recorrente — defina um intervalo de hora em hora ou diário para executar o trabalho.

  • Horário específico: defina dias e horários específicos para executar o trabalho.

As seções a seguir fornecem procedimentos para criar empregos.

CRON

Use o procedimento a seguir para criar um cronograma com uma CRON expressão.

Para especificar um cronograma com uma CRON expressão, faça o seguinte.

  1. Abra seu fluxo do Data Wrangler.

  2. Escolha Criar trabalho.

  3. (Opcional) Em KMSChave de saída, especifique uma AWS KMS chave para configurar a saída da tarefa.

  4. Escolha Próximo, 2. Configurar o trabalho.

  5. Selecione Associar agendas.

  6. Escolha Criar uma nova programação.

  7. Em Nome do agendamento, especifique o nome do agendamento.

  8. Em Frequência de execução, escolha CRON.

  9. Especifique uma CRON expressão válida.

  10. Escolha Criar.

  11. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  12. Escolha uma das seguintes opções:

    • Agende e execute agora — Data Wrangler, o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento — Data Wrangler, o trabalho só é executado nas programações que você especificar.

  13. Escolha Executar

RATE

Use o procedimento a seguir para criar um cronograma com uma RATE expressão.

Para especificar um cronograma com uma RATE expressão, faça o seguinte.

  1. Abra seu fluxo do Data Wrangler.

  2. Escolha Criar trabalho.

  3. (Opcional) Em KMSChave de saída, especifique uma AWS KMS chave para configurar a saída da tarefa.

  4. Escolha Próximo, 2. Configurar o trabalho.

  5. Selecione Associar agendas.

  6. Escolha Criar uma nova programação.

  7. Em Nome do agendamento, especifique o nome do agendamento.

  8. Em Frequência de execução, escolha Taxa.

  9. Em Valor, especifique um valor inteiro.

  10. Em Unidade, selecione uma das seguintes opções:

    • Minutos

    • Horas

    • Dias

  11. Escolha Criar.

  12. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  13. Escolha uma das seguintes opções:

    • Agende e execute agora — Data Wrangler, o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento — Data Wrangler, o trabalho só é executado nas programações que você especificar.

  14. Escolha Executar

Recurring

Use o procedimento a seguir para criar um cronograma que execute um trabalho de forma recorrente.

Para especificar um cronograma com uma CRON expressão, faça o seguinte.

  1. Abra seu fluxo do Data Wrangler.

  2. Escolha Criar trabalho.

  3. (Opcional) Em KMSChave de saída, especifique uma AWS KMS chave para configurar a saída da tarefa.

  4. Escolha Próximo, 2. Configurar o trabalho.

  5. Selecione Associar agendas.

  6. Escolha Criar uma nova programação.

  7. Em Nome do agendamento, especifique o nome do agendamento.

  8. Em Frequência de execução, verifique se a opção Recorrente está selecionada por padrão.

  9. Para Cada x horas, especifique a frequência horária com que o trabalho é executado durante o dia. Os valores válidos são números inteiros no intervalo inclusivo de 1 e 23.

  10. Em Em dias, escolha uma das seguintes opções:

    • Todos os dias

    • Finais de semana

    • Dias da semana

    • Selecionar dias

    1. (Opcional) Se você selecionou Selecionar dias, escolha os dias da semana para executar o trabalho.

    nota

    A programação é reiniciada todos os dias. Se você agendar um trabalho para ser executado a cada cinco horas, ele será executado nos seguintes horários do dia:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  11. Escolha Criar.

  12. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  13. Escolha uma das seguintes opções:

    • Agende e execute agora — Data Wrangler, o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento — Data Wrangler, o trabalho só é executado nas programações que você especificar.

  14. Escolha Executar

Specific time

Use o procedimento a seguir para criar uma programação que execute um trabalho em horários específicos.

Para especificar um cronograma com uma CRON expressão, faça o seguinte.

  1. Abra seu fluxo do Data Wrangler.

  2. Escolha Criar trabalho.

  3. (Opcional) Em KMSChave de saída, especifique uma AWS KMS chave para configurar a saída da tarefa.

  4. Escolha Próximo, 2. Configurar o trabalho.

  5. Selecione Associar agendas.

  6. Escolha Criar uma nova programação.

  7. Em Nome do agendamento, especifique o nome do agendamento.

  8. Escolha Criar.

  9. (Opcional) Escolha Adicionar outro agendamento para executar o trabalho em um agendamento adicional.

    nota

    Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

  10. Escolha uma das seguintes opções:

    • Agende e execute agora — Data Wrangler, o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.

    • Somente agendamento — Data Wrangler, o trabalho só é executado nas programações que você especificar.

  11. Escolha Executar

Você pode usar o Amazon SageMaker Studio Classic para ver os trabalhos que estão programados para execução. Seus trabalhos de processamento são executados dentro do Pipelines. Cada trabalho de processamento tem seu próprio pipeline. Ele é executado como uma etapa de processamento dentro do pipeline. Você pode ver as agendas que você criou em um funil. Para obter informações sobre como visualizar um pipeline, consulte Exibir os detalhes de um pipeline.

Use o procedimento a seguir para visualizar os trabalhos que você programou.

Para obter os trabalhos que você programou, faça o seguinte.

  1. Abra o Amazon SageMaker Studio Classic.

  2. Tubulações abertas

  3. Veja os pipelines dos trabalhos que você criou.

    O pipeline que executa o trabalho usa o nome do trabalho como prefixo. Por exemplo, se você criou um trabalho chamado housing-data-feature-enginnering, o nome do pipeline é data-wrangler-housing-data-feature-engineering.

  4. Escolha o pipeline que contém seu trabalho.

  5. Visualize o status dos pipelines. Pipelines com status de Bem-sucedido executaram o trabalho de processamento com êxito.

Para interromper a execução do trabalho de processamento, faça o seguinte:

Para interromper a execução de um trabalho de processamento, exclua a regra de evento que especifica a programação. A exclusão de uma regra de evento interrompe a execução de todos os trabalhos associados à programação. Para obter informações sobre como excluir uma regra, consulte Como desativar ou excluir uma regra da Amazon. EventBridge

Você também pode interromper e excluir os pipelines associados aos agendamentos. Para obter informações sobre como interromper um pipeline, consulte StopPipelineExecution. Para obter informações sobre como excluir um pipeline, consulte DeletePipeline.