Usando Union para combinar linhas - AWS Glue

Usando Union para combinar linhas

Você usa o nó de transformação Union quando deseja combinar linhas de mais de uma fonte de dados que tenham o mesmo esquema.

Existem dois tipos de transformações Union:

  1. ALL - ao aplicar ALL, a união resultante não remove linhas duplicadas.

  2. DISTINCT: ao aplicar DISTINCT, a união resultante remove as linhas duplicadas.

Unions versus Joins

Você usa Union para combinar linhas. Você usa Join para combinar colunas.

Usando a transformação Union na tela Visual ETL
  1. Adicione mais de uma fonte de dados para realizar uma transformação de união. Para adicionar uma fonte de dados, abra o painel Recurso e escolha a fonte de dados na guia Fontes. Antes de usar a transformação Union, você deve garantir que todas as fontes de dados envolvidas na união tenham o mesmo esquema e estrutura.

  2. Quando você tem pelo menos duas fontes de dados que deseja combinar usando a transformação Union, crie a transformação Union adicionando-a à tela. Abra o painel Recurso na tela e pesquise “Union”. Você também pode escolher a guia Transformações no painel Recursos e rolar para baixo até encontrar a transformação Union e, em seguida, escolher Union.

  3. Selecione o nó Union na tela de trabalho. Na janela Propriedades do nó, escolha os nós principais para se conectar à transformação Union.

  4. O AWS Glue verifica a compatibilidade para garantir que a transformação Union possa ser aplicada a todas as fontes de dados. Se o esquema das fontes de dados for o mesmo, a operação será permitida. Se as fontes de dados não tiverem o mesmo esquema, uma mensagem de erro de inválido será exibida: “Os esquemas de entrada dessa união não são os mesmos. Considere usar o ApplyMapping para combinar os esquemas.” Para corrigir isso, escolha usar ApplyMapping.

  5. Escolha o tipo de união.

    1. All: por padrão, o tipo de Union All é selecionado; isso resultará em linhas duplicadas, se houver alguma na combinação de dados.

    2. Distinct: escolha Distinct se quiser que as linhas duplicadas sejam removidas da combinação de dados resultante.