Reutilização de fluxos de dados para diferentes conjuntos de dados - Amazon SageMaker

Reutilização de fluxos de dados para diferentes conjuntos de dados

Para fontes de dados do Amazon Simple Storage Service (Amazon S3), você pode criar e usar parâmetros. Um parâmetro é uma variável que você salvou no fluxo do Data Wrangler. Seu valor pode ser qualquer parte do caminho do Amazon S3 da fonte de dados. Use parâmetros para alterar rapidamente os dados que você está importando para um fluxo do Data Wrangler ou exportando para uma tarefa de processamento. Você também pode usar parâmetros para selecionar e importar um subconjunto específico dos seus dados.

Depois de criar um fluxo do Data Wrangler, você pode ter treinado um modelo com base nos dados que você transformou. Para conjuntos de dados que têm o mesmo esquema, você pode usar parâmetros para aplicar as mesmas transformações em um conjunto de dados diferente e treinar um modelo diferente. Você pode usar os novos conjuntos de dados para realizar inferências com seu modelo ou pode usá-los para retreinar seu modelo.

Em geral, os parâmetros têm os seguintes atributos:

  • Nome: O nome que você especifica para o parâmetro

  • Tipo: O tipo de valor que o parâmetro representa

  • Valor padrão: O valor do parâmetro quando você não especifica um novo valor

nota

Os parâmetros de data e hora têm um atributo de intervalo de tempo que eles usam como valor padrão.

O Data Wrangler usa chaves curvas, {{}}, para indicar que um parâmetro está sendo usado no caminho do Amazon S3. Por exemplo, você pode ter uma URL como s3://amzn-s3-demo-bucket1/{{example_parameter_name}}/example-dataset.csv.

Você cria um parâmetro ao editar a fonte de dados do Amazon S3 que você importou. Você pode definir qualquer parte do caminho do arquivo como um valor de parâmetro. É possível definir o valor do parâmetro como um valor ou um padrão. A seguir estão os tipos de valores de parâmetros disponíveis no fluxo do Data Wrangler:

  • Número

  • String

  • Padrão

  • Datetime

nota

Você não pode criar um parâmetro padrão ou um parâmetro de data e hora para o nome do bucket no caminho do Amazon S3.

Você deve definir um número como o valor padrão de um parâmetro numérico. Você pode alterar o valor do parâmetro para um número diferente ao editar um parâmetro ou ao iniciar um trabalho de processamento. Por exemplo, no caminho do S3, s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv, você pode criar um parâmetro numérico nomeado number_parameter no lugar de 1. Seu caminho do S3 agora aparece como s3://amzn-s3-demo-bucket/example-prefix/example-file-{{number_parameter}}.csv. O caminho continua apontando para o example-file-1.csv conjunto de dados até que você altere o valor do parâmetro. Se você alterar o valor de number_parameter para, 2 o caminho será agora s3://amzn-s3-demo-bucket/example-prefix/example-file-2.csv. Você pode example-file-2.csv importar para o Data Wrangler se tiver carregado o arquivo para esse local do Amazon S3.

Um parâmetro de string armazena uma string como seu valor padrão. Por exemplo, no caminho do S3, s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv, você pode criar um parâmetro de string chamado string_parameter no lugar do nome do arquivo, example-file-1.csv. O caminho agora aparece como s3://amzn-s3-demo-bucket/example-prefix/{{string_parameter}}. Ele continua a coincidir s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv até que você altere o valor do parâmetro.

Em vez de especificar o nome do arquivo como um parâmetro de string, você pode criar um parâmetro de string usando todo o caminho do Amazon S3. Você pode especificar um conjunto de dados de qualquer local do Amazon S3 no parâmetro string.

Um parâmetro de padrão armazena uma string de expressão regular (Python REGEX) como seu valor padrão. É possível usar um parâmetro de padrão para importar vários arquivos de dados ao mesmo tempo. Para importar mais de um objeto por vez, especifique um valor de parâmetro que corresponda aos objetos do Amazon S3 que você está importando.

Você também pode criar um parâmetro de padrão para os seguintes conjuntos de dados:

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-1.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-2.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/example-file-10.csv

  • s3://amzn-s3-demo-bucket/example-prefix/example-file-0123.csv

Para s3://amzn-s3-demo-bucket1/example-prefix/example-file-1.csv, você pode criar um parâmetro padrão no lugar 1 de e definir o valor padrão do parâmetro como \d+. A string \d+ REGEX corresponde a qualquer um ou mais dígitos decimais. Se você criar um parâmetro de padrão chamado pattern_parameter, seu caminho do S3 aparecerá como s3://amzn-s3-demo-bucket1/example-prefix/example-file-{{pattern_parameter}}.csv.

Você também pode usar parâmetros de padrão para combinar todos os objetos CSV em seu bucket. Para combinar todos os objetos em um bucket, crie um parâmetro de padrão com o valor padrão de .* e defina o caminho como s3://amzn-s3-demo-bucket/{{pattern_parameter}}.csv. O caractere .* corresponde a qualquer caractere de string no caminho.

O caminho s3://amzn-s3-demo-bucket/{{pattern_parameter}}.csv pode corresponder aos seguintes conjuntos de dados:

  • example-file-1.csv

  • other-example-file.csv

  • example-file-a.csv

Um parâmetro de data e hora armazena o formato com as seguintes informações:

  • Um formato para analisar strings dentro de um caminho do Amazon S3.

  • Um intervalo de tempo relativo para limitar os valores de data e hora correspondentes

Por exemplo, no caminho do arquivo Amazon S3, s3://amzn-s3-demo-bucket/2020/01/01/example-dataset.csv, 2020/01/01 representa um datetime no formato de year/month/day. Você pode definir o intervalo de tempo do parâmetro para um intervalo como 1 years ou 24 hours. Um intervalo de 1 years corresponde a todos os caminhos do S3 com datas que estão entre a hora atual e a hora exatamente um ano antes da hora atual. A hora atual é a hora em que você começa a exportar as transformações feitas nos dados. Para obter mais informações sobre como exportar os dados, consulte Exportar. Se a data atual for 01/01/2022 e o intervalo de tempo for 1 years, o caminho do S3 corresponderá a conjuntos de dados como os seguintes:

  • s3://amzn-s3-demo-bucket/2021/01/01/example-dataset.csv

  • s3://amzn-s3-demo-bucket/2021/06/30/example-dataset.csv

  • s3://amzn-s3-demo-bucket/2021/12/31/example-dataset.csv

Os valores de data e hora em um intervalo de tempo relativo mudam com o passar do tempo. Os caminhos do S3 que estão dentro do intervalo de tempo relativo também podem ser diferentes.

Para o caminho do arquivo Amazon S3, s3://amzn-s3-demo-bucket1/20200101/example-dataset.csv, 20220101 é um exemplo de um caminho que pode se tornar um parâmetro de data e hora.

Para visualizar uma tabela de todos os parâmetros que você criou no fluxo do Data Wrangler, escolha `{{}}` à direita da caixa de texto contendo o caminho do Amazon S3. Você pode editar ou excluir um parâmetro que você criou, caso não precise mais dele. Para editar ou excluir um parâmetro, escolha os ícones à direita do parâmetro.

Importante

Antes de excluir um parâmetro, verifique se você não o usou em nenhum lugar do fluxo do Data Wrangler. Parâmetros excluídos que ainda estão dentro do fluxo causam erros.

Você pode criar parâmetros para qualquer etapa do fluxo do Data Wrangler. Você pode editar ou excluir um parâmetro que criou. Se você estiver aplicando transformações em dados que não são mais relevantes para seu caso de uso, você pode modificar os valores dos parâmetros. A modificação dos valores dos parâmetros altera os dados que você está importando.

As seções a seguir apresentam mais exemplos e orientações gerais sobre o uso de parâmetros. Você pode usar as seções para entender os parâmetros que funcionam melhor para você.

nota

As seções a seguir contêm procedimentos que usam a interface do Data Wrangler para substituir os parâmetros e criar uma tarefa de processamento.

Você também pode substituir os parâmetros usando os procedimentos a seguir.

Para exportar seu fluxo do Data Wrangler e substituir o valor de um parâmetro, faça o seguinte:

  1. Escolha o + próximo ao nó que você deseja separar.

  2. Selecione Exportar para.

  3. Escolha o local para onde você está exportando os dados.

  4. Em parameter_overrides, especifique valores diferentes para os parâmetros que você criou.

  5. Executar o caderno Jupyter.

Você pode usar parâmetros para aplicar transformações em seu fluxo do Data Wrangler a arquivos diferentes que correspondam a um padrão no caminho URI do Amazon S3. Ele ajuda você a especificar os arquivos no bucket do S3 que você deseja transformar com alta especificidade. Por exemplo, você pode ter um conjunto de dados com o caminho s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv. Conjuntos de dados diferentes nomeados example-dataset.csv são armazenados sob muitos prefixos de exemplo diferentes. Os prefixos também podem ser numerados sequencialmente. É possível criar padrões para os números no URI do Amazon S3. Os parâmetros de padrão usam REGEX para selecionar qualquer número de arquivos que correspondam ao padrão da expressão. A seguir estão os padrões REGEX que podem ser úteis:

  • .*: Corresponde a zero ou mais de qualquer caractere, exceto caracteres de nova linha

  • .+: Corresponde a um ou mais caracteres de qualquer caractere, excluindo caracteres de nova linha

  • \d+: Corresponde a um ou mais dígitos decimais

  • \w+: Corresponde a um ou mais caracteres alfanuméricos

  • [abc-_]{2,4}: Corresponde a uma string de dois, três ou quatro caracteres composta pelo conjunto de caracteres fornecido dentro de um conjunto de colchetes

  • abc|def: Corresponde a uma string ou outra. Por exemplo, a operação corresponde a abc ou def

Você pode substituir cada número nos caminhos a seguir por um único parâmetro que tenha um valor de \d+.

  • s3://amzn-s3-demo-bucket1/example-prefix-3/example-prefix-4/example-prefix-5/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix-8/example-prefix-12/example-prefix-13/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix-4/example-prefix-9/example-prefix-137/example-dataset.csv

O procedimento a seguir cria um parâmetro padrão para um conjunto de dados com o caminho s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv.

Para criar um parâmetro de padrão, faça o seguinte:

  1. Ao lado do conjunto de dados que você importou, escolha Editar conjunto de dados.

  2. Destaque a 0 entrada example-prefix-0.

  3. Especifique valores para os seguintes campos:

    • Nome: Um nome para o parâmetro

    • Tipo: Padrão

    • Valor : \ d+ uma expressão regular que corresponde a um ou mais dígitos

  4. Escolha Criar.

  5. Substitua o caminho do URI 1 e o 2 no S3 pelo parâmetro. O caminho deve ter o seguinte formato: s3://amzn-s3-demo-bucket1/example-prefix-{{example_parameter_name}}/example-prefix-{{example_parameter_name}}/example-prefix-{{example_parameter_name}}/example-dataset.csv

A seguir está um procedimento geral para criar um parâmetro de padrão.

  1. Navegue até o fluxo do Data Wrangler.

  2. Ao lado do conjunto de dados que você importou, escolha Editar conjunto de dados.

  3. Destaque a parte do URI que você está usando como valor do parâmetro padrão.

  4. Escolha Criar parâmetro personalizado.

  5. Especifique valores para os seguintes campos:

    • Nome: Um nome para o parâmetro

    • Tipo: Padrão

    • Valor: Uma expressão regular contendo o padrão que você gostaria de armazenar.

  6. Escolha Criar.

Você pode usar parâmetros para aplicar transformações no fluxo do Data Wrangler a arquivos diferentes que tenham caminhos semelhantes. Por exemplo, você pode ter um conjunto de dados com o caminho s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv.

Você pode ter as transformações do fluxo do Data Wrangler que você aplicou aos conjuntos de dados abaixo example-prefix-1. Talvez você queira aplicar as mesmas transformações às example-dataset.csv que se enquadram em example-prefix-10 ou example-prefix-20.

Você pode criar um parâmetro que armazene o valor 1. Se quiser aplicar as transformações a conjuntos de dados diferentes, você pode criar trabalhos de processamento que substituam o valor do parâmetro por um valor diferente. O parâmetro atua como um espaço reservado para você alterar quando quiser aplicar as transformações do fluxo do Data Wrangler aos novos dados. Você pode substituir o valor do parâmetro ao criar uma tarefa de processamento do Data Wrangler para aplicar as transformações no fluxo do Data Wrangler a diferentes conjuntos de dados.

Use o procedimento a seguir para criar um filtro de campo numérico para s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv.

Para criar parâmetros para o caminho anterior do URI do S3, faça o seguinte:

  1. Navegue até o fluxo do Data Wrangler.

  2. Ao lado do conjunto de dados que você importou, escolha Editar conjunto de dados.

  3. Destaque o número em um exemplo de prefixo de example-prefix-number.

  4. Escolha Criar parâmetro personalizado.

  5. Em Nome, digite um nome para o parâmetro.

  6. Em Tipo, escolha Inteiro.

  7. Em Valor, especifique o número.

  8. Crie parâmetros para os números restantes repetindo o procedimento.

Depois de criar os parâmetros, aplique as transformações ao seu conjunto de dados e crie um nó de destino para elas. Para obter mais informações sobre nós de destino, consulte Exportar.

Use o procedimento a seguir para aplicar as transformações do fluxo do Data Wrangler em um intervalo de tempo diferente. Ele pressupõe que você tenha criado um nó de destino para as transformações em seu fluxo.

Para alterar o valor de um parâmetro numérico em uma tarefa de processamento do Data Wrangler, faça o seguinte:

  1. No fluxo do Data Wrangler, escolha Criar trabalho

  2. Selecione somente o nó de destino que contém as transformações no conjunto de dados contendo os parâmetros de data e hora.

  3. Selecione Configurar trabalho.

  4. Selecione Parâmetros.

  5. Escolha o nome do parâmetro que você criou.

  6. Modifique o valor do parâmetro.

  7. Repita o procedimento para os outros parâmetros.

  8. Escolha Executar.

Você pode usar parâmetros para aplicar transformações no fluxo do Data Wrangler a arquivos diferentes que tenham caminhos semelhantes. Por exemplo, você pode ter um conjunto de dados com o caminho s3://amzn-s3-demo-bucket1/example-prefix/example-dataset.csv.

Você pode ter transformações do fluxo do Data Wrangler que você aplicou aos conjuntos de dados abaixo example-prefix. Talvez você queira aplicar as mesmas transformações example-dataset.csv abaixo de another-example-prefix ou example-prefix-20.

Você pode criar um parâmetro que armazene o valor example-prefix. Se quiser aplicar as transformações a conjuntos de dados diferentes, você pode criar trabalhos de processamento que substituam o valor do parâmetro por um valor diferente. O parâmetro atua como um espaço reservado para você alterar quando quiser aplicar as transformações do fluxo do Data Wrangler aos novos dados. Você pode substituir o valor do parâmetro ao criar uma tarefa de processamento do Data Wrangler para aplicar as transformações no fluxo do Data Wrangler a diferentes conjuntos de dados.

Use o procedimento a seguir para criar um parâmetro para s3://amzn-s3-demo-bucket1/example-prefix/example-dataset.csv.

Para criar um parâmetro para o caminho anterior do URI do S3, faça o seguinte:

  1. Navegue até o fluxo do Data Wrangler.

  2. Ao lado do conjunto de dados que você importou, escolha Editar conjunto de dados.

  3. Destaque o prefixo de exemplo, example-prefix.

  4. Escolha Criar parâmetro personalizado.

  5. Em Nome, digite um nome para o parâmetro.

  6. Para Tipo, escolha String.

  7. Em Valor, especifique o prefixo.

Depois de criar o parâmetro, aplique as transformações ao seu conjunto de dados e crie um nó de destino para elas. Para obter mais informações sobre nós de destino, consulte Exportar.

Use o procedimento a seguir para aplicar as transformações do fluxo do Data Wrangler em um intervalo de tempo diferente. Ele pressupõe que você tenha criado um nó de destino para as transformações em seu fluxo.

Para alterar o valor de um parâmetro numérico em uma tarefa de processamento do Data Wrangler, faça o seguinte:

  1. No fluxo do Data Wrangler, escolha Criar trabalho

  2. Selecione somente o nó de destino que contém as transformações no conjunto de dados contendo os parâmetros de data e hora.

  3. Selecione Configurar trabalho.

  4. Selecione Parâmetros.

  5. Escolha o nome do parâmetro que você criou.

  6. Modifique o valor do parâmetro.

  7. Repita o procedimento para os outros parâmetros.

  8. Escolha Executar.

Use parâmetros de data e hora para aplicar transformações em seu fluxo do Data Wrangler em diferentes intervalos de tempo. Destaque a parte do URI do Amazon S3 que tem um carimbo de data/hora e crie um parâmetro para ela. Ao criar um parâmetro, você especifica um intervalo de tempo da hora atual até uma hora no passado. Por exemplo, você pode ter um URI do Amazon S3 que se parece com o seguinte: s3://amzn-s3-demo-bucket1/example-prefix/2022/05/15/example-dataset.csv. Você pode salvar 2022/05/15 como um parâmetro de data e hora. Se você especificar um ano como intervalo de tempo, o intervalo de tempo incluirá o momento em que você executa o trabalho de processamento contendo o parâmetro de data e hora e a hora de exatamente um ano atrás. Se o momento em que você estiver executando o trabalho de processamento for 6 de setembro de 2022 ou 2022/09/06, os intervalos de tempo podem incluir o seguinte:

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/03/15/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/01/08/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2022/07/31/example-dataset.csv

  • s3://amzn-s3-demo-bucket1/example-prefix/2021/09/07/example-dataset.csv

As transformações no fluxo do Data Wrangler se aplicam a todos os prefixos anteriores. Alterar o valor do parâmetro na tarefa de processamento não altera o valor do parâmetro no fluxo do Data Wrangler. Para aplicar as transformações aos conjuntos de dados em um intervalo de tempo diferente, faça o seguinte:

  1. Crie um nó de destino contendo todas as transformações que gostaria de usar.

  2. Crie uma tarefa do Data Wrangler.

  3. Configure a tarefa para usar um intervalo de tempo diferente para o parâmetro. Alterar o valor do parâmetro na tarefa de processamento não altera o valor do parâmetro no fluxo do Data Wrangler.

Para obter mais informações sobre nós de destino e trabalhos do Data Wrangler, consulte Exportar.

O seguinte procedimento cria um parâmetro de data e hora para o caminho do Amazon S3: s3://amzn-s3-demo-bucket1/example-prefix/2022/05/15/example-dataset.csv.

Para criar um parâmetro de data e hora para o caminho anterior do URI do S3, faça o seguinte:

  1. Navegue até o fluxo do Data Wrangler.

  2. Ao lado do conjunto de dados que você importou, escolha Editar conjunto de dados.

  3. Destaque a parte do URI que você está usando como valor do parâmetro datetime.

  4. Escolha Criar parâmetro personalizado.

  5. Em Nome, digite um nome para o parâmetro.

  6. Em Tipo, escolha Data e hora.

    nota

    Por padrão, o Data Wrangler seleciona Predefinido, que fornece um menu suspenso para você selecionar um formato de data. No entanto, o formato de carimbo de data/hora que você está usando pode não estar disponível. Em vez de usar Predefinido como opção padrão, você pode escolher Personalizado e especificar o formato do carimbo de data/hora manualmente.

  7. Para Formato de data, abra o menu suspenso depois de Predefinido e escolha aaaa/mm/dd. O formato, aaaa/mm/dd, corresponde ao ano/mês/dia do timestamp.

  8. Em Fuso horário, escolha um fuso horário.

    nota

    Os dados que você está analisando podem ter registros de data e hora em um fuso horário diferente do seu fuso horário. Verifique se o fuso horário selecionado corresponde ao fuso horário dos dados.

  9. Em Intervalo de tempo, especifique o intervalo de tempo para o parâmetro.

  10. (Opcional) Insira uma descrição para descrever como você está usando o parâmetro.

  11. Escolha Criar.

Depois de criar os parâmetros de data e hora, aplique as transformações ao seu conjunto de dados e crie um nó de destino para elas. Para obter mais informações sobre nós de destino, consulte Exportar.

Use o procedimento a seguir para aplicar as transformações do fluxo do Data Wrangler em um intervalo de tempo diferente. Ele pressupõe que você tenha criado um nó de destino para as transformações em seu fluxo.

Para alterar o valor de um parâmetro de data e hora em uma tarefa de processamento do Data Wrangler, faça o seguinte:

  1. No fluxo do Data Wrangler, escolha Criar trabalho

  2. Selecione somente o nó de destino que contém as transformações no conjunto de dados contendo os parâmetros de data e hora.

  3. Selecione Configurar trabalho.

  4. Selecione Parâmetros.

  5. Escolha o nome do parâmetro datetime que você criou.

  6. Em Intervalo de tempo, altere o intervalo de tempo dos conjuntos de dados.

  7. Escolha Executar.