Recursos do editor de trabalhos - AWS Glue

Recursos do editor de trabalhos

O editor de trabalhos fornece os seguintes recursos para criar e editar trabalhos.

  • Um diagrama visual do seu trabalho, com um nó para cada tarefa de trabalho: nós de origem de dados para lê-los, transformar nós para modificá-los, nós de destino de dados para gravá-los.

    Você pode exibir e configurar as propriedades de cada nó no diagrama de trabalho. Você também pode exibir os dados de esquema e de exemplo de cada nó no diagrama de trabalho. Esses recursos ajudam você a verificar se seu trabalho está modificando e transformando os dados da maneira correta, sem ter que executar o trabalho.

  • Uma guia de exibição e edição de scripts, onde você pode modificar o código gerado para seu trabalho.

  • Uma guia de detalhes do trabalho, onde você pode configurar uma variedade de configurações para personalizar o ambiente no qual seu trabalho de ETL do AWS Glue é executado.

  • Uma guia de execuções, onde você pode exibir as execuções atuais e anteriores do trabalho, visualizar o status da execução do trabalho e acessar os logs da execução do trabalho.

  • Uma guia Qualidade de dados, na qual você pode aplicar regras de qualidade de dados ao seu trabalho.

  • Uma guia de programações, na qual você pode configurar o momento de início de seu trabalho ou configurar execuções recorrentes de um trabalho.

  • Uma guia Controle de versão, na qual você pode configurar um serviço Git para usar com seu trabalho.

Usar previsualizações de esquema no editor de trabalhos visual

Ao criar ou editar seu trabalho, você pode usar a guia Output schema (Esquema de saída) para exibir o esquema dos dados.

Antes que você possa ver o esquema, o editor de trabalhos precisa de permissões para acessar a origem dos dados. Você pode especificar uma função do IAM para um nó na guia Job details (Detalhes do trabalho) do editor ou na guia Output schema (Esquema de saída). Se a função do IAM tiver todas as permissões necessárias para acessar a origem dos dados, você poderá visualizar o esquema na guia Output schema (Esquema de saída) de um nó.

Usar previsualizações de dados no editor de trabalhos visual

As pré-visualizações de dados ajudam você a criar e testar seu trabalho usando um exemplo dos seus dados sem precisar executá-lo repetidamente. Ao usar a pré-visualização de dados, você pode:

  • Testar um perfil do IAM para garantir que ele tenha acesso a suas fontes ou destinos de dados.

  • Verificar se a transformação está modificando os dados da maneira pretendida. Por exemplo, se você usar uma transformação de filtro, pode certificar-se de que o filtro está selecionando o subconjunto correto de dados.

  • Verifique seus dados. Se o conjunto de dados contiver colunas com valores de vários tipos, a visualização de dados mostrará uma lista de tuplas para elas. Cada tupla contém o tipo de dado e seu valor.

nota

Se você usar uma sessão de visualização de dados e um SQL personalizado ou um nó de código personalizado, a sessão de visualização de dados executará o SQL ou o bloco de código no estado em que se encontra para todo o conjunto de dados.

Ao criar ou editar seu trabalho, você pode usar a guia Visualização de dados abaixo da tela do trabalho para visualizar uma amostra dos seus dados. Uma nova sessão de pré-visualização de dados será iniciada automaticamente quando o perfil já estiver configurado no trabalho ou um perfil do IAM padrão tiver sido configurado na conta. Se um perfil não tiver sido configurado anteriormente, você poderá iniciar uma sessão selecionando o perfil.

A captura de tela mostra a guia Data preview (Previsualização de dados) de um nó.
nota

O perfil que você escolher para a sessão de pré-visualização de dados também será usado para o trabalho.

É possível ver o status e o progresso da sua sessão, bem como os detalhes da sessão, clicando no ícone de informações.

Quando a sessão estiver pronta, o AWS Glue Studio carregará os dados para o nó selecionado. É possível visualizar o % concluído à medida que a sessão avança.

A captura de tela mostra a guia Pré-visualização de dados de um nó iniciado.

À medida que você criar seu trabalho visual, o AWS Glue Studio atualizará automaticamente o esquema do nó selecionado quando você alternar Inferir esquema da sessão na guia Esquema de saída.

A captura de tela mostra a guia Pré-visualização de dados de um nó iniciado.

Para configurar suas preferências de pré-visualização de dados:

Escolha o ícone de configurações (um símbolo de engrenagem) para configurar suas preferências de previsualizações de dados. Essas configurações se aplicam a todos os nós no diagrama de trabalho. É possível:

  • Optar por quebrar o texto de uma linha para a próxima. Essa opção é habilitada por padrão

  • Alterar o número de linhas (o padrão é 200)

  • Escolher ou, se necessário, criar um perfil do IAM

  • Optar por iniciar automaticamente uma nova sessão ao criar um trabalho. Isso fornece uma nova sessão interativa ao criar trabalhos. Essa configuração é aplicável no nível da conta. Uma vez definida, a configuração será aplicada a todos os usuários da sua conta ao editar qualquer trabalho.

  • Escolher inferir automaticamente o esquema. Os esquemas de saída serão automaticamente inferidos para o nó selecionado

  • Optar por importar automaticamente bibliotecas do AWS Glue. Isso é útil porque evitará que a pré-visualização de dados reinicie novas sessões ao adicionar novas transformações que exijam a reinicialização da sessão

A captura de tela mostra as preferências que você pode definir para o atributo de visualização de dados.

Os recursos adicionais incluem a capacidade de:

  • Selecione o botão Previewing x of y fields (Previsualização de x de y campos) para selecionar quais colunas (campos) serão previsualizadas. Quando você previsualiza seus dados usando as configurações padrão, o editor de trabalhos mostra as cinco primeiras colunas do seu conjunto de dados. Você pode alterar essa opção para mostrar todas ou nenhuma (não recomendado).

  • Role pela janela de pré-visualização de dados, tanto na horizontal quanto na vertical.

  • Use o botão maximizar para expandir a guia Visualização de dados para sobrepor o gráfico do trabalho e visualizar melhor os dados e as estruturas de dados. Da mesma forma, use o botão minimizar para minimizar a guia Visualização de dados. Você também pode pegar o painel da alça e arrastar para cima para expandir a guia Visualização de dados.

    A captura de tela mostra o painel de visualização de dados com os botões minimizar e maximizar destacados, bem como o painel de controle que você pode usar para estender o painel de visualização de dados verticalmente.
  • Use Encerrar sessão para interromper a visualização dos dados. Ao interromper a sessão, você pode escolher um novo perfil do IAM e definir configurações adicionais (como ativar ou desativar configurações) para iniciar automaticamente uma nova sessão, inferir um esquema ou importar AWS Glue bibliotecas e iniciar a sessão novamente.

Restrições ao usar previsualizações de dados

Ao usar previsualizações de dados, você pode encontrar as seguintes restrições ou limitações.

  • Na primeira vez que você escolhe a guia Data preview (Previsualização de dados), deve escolher uma função do IAM. Essa função deve ter as permissões exigidas para acessar os dados e outros recursos necessários para criar as previsualizações de dados.

  • Depois de fornecer uma função do IAM, leva um tempo até que os dados estejam disponíveis para visualização. Para conjuntos de dados com menos de 1 GB de dados, pode levar até um minuto. Se você tiver um conjunto de dados grande, deverá usar partições para melhorar o tempo de carregamento. Carregar dados diretamente no Amazon S3 apresenta a melhor performance.

  • Se você tiver um conjunto de dados muito grande e levar mais de 15 minutos para consultar os dados para a previsualização, a solicitação excederá o tempo limite. As pré-visualizações de dados têm um tempo limite de inatividade de 30 minutos. Para aliviar isso, reduza o tamanho do conjunto de dados para usar previsualizações de dados.

  • Por padrão, você vê as 50 primeiras colunas na guia Data preview (Previsualização de dados). Se as colunas não tiverem valores de dados, você receberá uma mensagem informando que não há dados para exibir. Você pode aumentar o número de linhas de amostra ou de colunas diferentes selecionadas para ver os valores dos dados.

  • No momento, as previsualizações de dados não são suportadas para origens de dados de transmissão ou para origens de dados que usam conectores personalizados.

  • Erros em um nó afetam todo o trabalho. Se qualquer nó tiver um erro nas previsualizações de dados, ele aparecerá em todos os nós até que você o corrija.

  • Se você alterar uma origem de dados para o trabalho, os nós filhos dessa origem de dados talvez precisem ser atualizados para corresponder ao novo esquema. Por exemplo, se você tiver um nó ApplyMapping que modifica uma coluna e ela não existir na origem de dados de substituição, será necessário atualizar o nó de transformação ApplyMapping.

  • Se você exibir a guia Data preview (Previsualização de dados) para um nó de transformação de consulta SQL e tal consulta usar um nome de campo incorreto, a guia Data preview (Previsualização de dados) exibirá um erro.

Geração de código de script

Quando você usa o editor visual para criar um trabalho, o código ETL é gerado automaticamente para você. O AWS Glue Studio cria um script de trabalho funcional e completo e o salva em um local do Amazon S3.

Existem duas formas de código geradas pelo AWS Glue Studio: a versão original, ou clássica, e uma versão mais nova e racionalizada. Por padrão, o novo gerador de código é usado para criar o script de trabalho. Você pode gerar um script de trabalho usando o gerador de código clássico na guia Script escolhendo o botão Generate classic script (Gerar script clássico).

Algumas das diferenças na nova versão do código gerado incluem:

  • Blocos de comentários grandes não são mais adicionados ao script

  • As estruturas de saída no código usam o nome do nó especificado no editor visual. No script clássico, as estruturas de saída são simplesmente nomeadas DataSource0, DataSource1, Transform0, Transform1, DataSink0, DataSink1 e assim por diante.

  • Comandos longos são divididos em várias linhas para eliminar a necessidade de rolar pela página para ver o comando inteiro.

Novos recursos no AWS Glue Studio exigem a nova versão da geração de código e não funcionarão com o script de código clássico. Você será solicitado a atualizar esses trabalhos ao tentar executá-los.