Transformar dados com transformações gerenciadas do AWS Glue - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Transformar dados com transformações gerenciadas do AWS Glue

O AWS Glue Studio fornece dois tipos de transformação:

  • Transformações nativas do AWS Glue, disponíveis para todos os usuários e gerenciadas pelo AWS Glue.

  • Transformações visuais personalizadas, permitem que você carregue suas próprias transformações para usar no AWS Glue Studio

Nós de transformação de dados gerenciados pelo AWS Glue

O AWS Glue Studio fornece um conjunto de transformações integradas que você pode usar para processar seus dados. Seus dados passam de um nó no diagrama de trabalho para outro em uma estrutura de dados chamada DynamicFrame, que é uma extensão para um DataFrame do Apache Spark SQL.

No diagrama previamente preenchido de um trabalho, entre os nós de fonte de dados e de destino de dados está o nó de transformação Change Schema. Você pode configurar esse nó de transformação para modificar seus dados ou pode usar transformações adicionais.

As transformações integradas a seguir estão disponíveis no AWS Glue Studio:

  • ChangeSchema: mapear chaves de propriedade de dados na fonte de dados para chaves de propriedade de dados no destino dos dados. Você pode renomear chaves, modificar os tipos de dados para chaves e escolher quais chaves remover do conjunto de dados.

  • SelectFields (Selecionar campos): escolha as chaves de propriedade de dados que você deseja manter.

  • DropFields (Descartar campos): escolha as chaves de propriedade de dados que você deseja descartar.

  • RenameField (Renomear campo): renomeie uma única chave de propriedade de dados.

  • Spigot (Torneira): grave amostras dos dados em um bucket do Amazon S3.

  • Join (Unir): una dois conjuntos de dados em um só, usando uma frase de comparação nas chaves de propriedade de dados especificadas. Você pode usar junção inner (interna), outer (externa), left (à esquerda), right (à direita), left semi (semi à esquerda) e left anti (anti à esquerda).

  • Union: combinar linhas de mais de uma fonte de dados que tenham o mesmo esquema.

  • SplitFields (Dividir campos): divida chaves de propriedade de dados em dois DynamicFrames. A saída é uma coleção de DynamicFrames: um com chaves de propriedade de dados selecionadas e outro com as chaves de propriedade de dados restantes.

  • SelectFromCollection (Selecionar na coleção): escolha um DynamicFrame a partir de uma coleção de DynamicFrames. A saída é o DynamicFrame selecionado.

  • FillMissingValues (Preencher valores ausentes): localize registros no conjunto de dados que têm valores ausentes e adicione um novo campo com um valor determinado por imputação.

  • Filter (Filtro): divida um conjunto de dados em dois, com base em uma condição de filtro.

  • Drop Null Fields (Descartar campos nulos): remove colunas do conjunto de dados se todos os valores na coluna forem "null" (nulo).

  • Drop Duplicates (Eliminar duplicatas): remove linhas da sua fonte de dados escolhendo combinar linhas inteiras ou especificar chaves.

  • SQL: insira o código SparkSQL em um campo de entrada de texto para usar uma consulta SQL para transformar os dados. A saída é um único DynamicFrame.

  • Agregar: executa um cálculo (como média, soma, mínimo, máximo) em campos e linhas selecionados, e cria um novo campo com os valores recém-calculados.

  • Nivelar: extraia campos dentro de structs para campos de nível superior.

  • UUID: adicione uma coluna com um identificador universal exclusivo para cada linha.

  • Identificador: adicione uma coluna com um identificador numérico para cada linha.

  • Em timestamp: converta uma coluna em tipo timestamp.

  • Formatar timestamp: converta uma coluna de timestamp em uma string formatada.

  • Transformação de roteador condicional: aplique várias condições aos dados de entrada. Cada linha dos dados de entrada avaliada por uma condição de filtro de grupo e processada no grupo correspondente.

  • Transformação Concatenate Columns: Criar uma nova coluna de strings usando os valores de outras colunas com um espaçador opcional.

  • Transformação Split String: permite que você divida uma string em uma matriz de tokens usando uma expressão regular para definir como a divisão é feita.

  • Transformação Array To Columns: extrair alguns ou todos os elementos de uma coluna do tipo matriz para novas colunas.

  • Transformação Add Current Timestamp: permite marcar as linhas com a hora em que os dados foram processados. Isso é útil para fins de auditoria ou para rastrear a latência no pipeline de dados.

  • Transformação Pivot Rows to Columns: agregar uma coluna numérica girando valores únicos nas colunas selecionadas que se tornam novas colunas. Se várias colunas forem selecionadas, os valores serão concatenados para nomear as novas colunas.

  • Transformação Unpivot Columns To Rows: converter colunas em valores de novas colunas, gerando uma linha para cada valor único.

  • Transformação Autobalance Processing: redistribuir os dados entre os operadores para melhorar a performance. Isso ajuda nos casos em que os dados estão desbalanceados ou, como vêm da fonte, não permitem processamento paralelo suficiente.

  • Transformação Derived Column: definir uma nova coluna com base em uma fórmula matemática ou expressão SQL na qual você pode usar outras colunas nos dados, além de constantes e literais.

  • Transformação Lookup: adicionar colunas de uma tabela de catálogo definida quando as chaves correspondem às colunas de pesquisa nos dados.

  • Transformação Explode Array Map Into Rows: extrair valores de uma estrutura aninhada em linhas individuais que são mais fáceis de manipular.

  • Transformação Record matching: invocar uma transformação de classificação de dados de machine learning Record Matching existente.

  • Transformação Remove null rows: remover do conjunto de dados as linhas que têm todas as colunas nulas ou vazias.

  • Transformação Parse JSON comumn: analisar uma coluna de strings contendo dados JSON e a converter em uma estrutura ou coluna de matriz, dependendo se o JSON for um objeto ou uma matriz, respectivamente.

  • Transformação Extract JSON path: extrair novas colunas de uma coluna de strings JSON.

  • EssaTransformação Extract stringtransformaçãofragmentsextraifrom a regular expression: extrair fragmentos de string usando uma expressão regular e criacriar uma nova coluna a partir dela, ou várias colunas se estiver usando grupos regex.

  • Custom transform (Transformação personalizada): insira o código em um campo de entrada de texto para usar transformações personalizadas. A saída é uma coleção de DynamicFrames.