Visão geral do uso do AWS Glue - AWS Glue

Visão geral do uso do AWS Glue

Com o AWS Glue, você armazena metadados no AWS Glue Data Catalog. Você usa esses metadados para orquestrar trabalhos de ETL que transformam fontes de dados e carregam o data warehouse ou o data lake. As etapas a seguir descrevem o fluxo de trabalho geral e algumas das opções que você faz ao trabalhar com o AWS Glue.

nota

É possível realizar as etapas a seguir ou criar um fluxo de trabalho que execute automaticamente as etapas 1 a 3. Para ter mais informações, consulte Realizar atividades de ETL complexas usando esquemas e fluxos de trabalho no AWS Glue.

  1. Preencher o AWS Glue Data Catalog com definições de tabela.

    No console, para armazenamentos de dados persistentes, é possível adicionar um crawler para preencher o AWS Glue Data Catalog. Você pode iniciar o assistente Add crawler na lista de tabelas ou na lista de crawlers. Você escolhe um ou mais armazenamentos de dados para o seu crawler acessar. Você também pode criar uma programação para determinar a frequência de execução do seu crawler. Para streams de dados, é possível criar manualmente a definição de tabela e definir propriedades de stream.

    Se preferir, você pode fornecer um classificador personalizado que infere o esquema dos seus dados. Você pode criar classificadores personalizados usando um padrão grok, No entanto, o AWS Glue fornece classificadores integrados que são usados ​​automaticamente pelos crawlers quando um classificador personalizado não reconhece seus dados. Ao definir um crawler, você não precisa selecionar um classificador. Para obter mais informações sobre classificadores no AWS Glue, consulte Definir e gerenciar classificadores.

    O crawling de alguns tipos de armazenamento de dados requer uma conexão que forneça informações de autenticação e local. Se necessário, você pode criar uma conexão que fornece essas informações necessárias no console do AWS Glue.

    O crawler lê seu armazenamento de dados e cria definições de dados e tabelas nomeadas no AWS Glue Data Catalog. Estas tabelas são organizadas em um banco de dados de sua escolha. Você também pode preencher o Data Catalog com tabelas criadas manualmente. Com esse método, você fornece o esquema e outros metadados para criar definições de tabela no Data Catalog. Como esse método pode ser um pouco entediante e propenso a erros, muitas vezes é melhor deixar que o crawler crie as definições da tabela.

    Para obter mais informações sobre como preencher o AWS Glue Data Catalog com definições de tabela, consulte Criar tabelas.

  2. Defina um trabalho que descreva a transformação de dados de origem para dados de destino.

    Geralmente, para criar um trabalho, você precisa fazer as seguintes escolhas:

    • Escolha uma tabela do AWS Glue Data Catalog para ser a origem do trabalho. Seu trabalho usa essa definição de tabela para acessar a fonte de dados e interpretar o formato dos dados.

    • Escolha uma tabela ou um local do AWS Glue Data Catalog para ser o destino do trabalho. Seu trabalho usa essas informações para acessar seu armazenamento de dados.

    • Instrua o AWS Glue a gerar um script para transformar sua origem em destino. O AWS Glue gera o código para chamar transformações integradas a fim de converter dados de seu esquema de origem no formato do esquema de destino. Essas transformações executam operações como cópia de dados, renomeação de colunas e filtragem de dados para transformar os dados conforme necessário. Você pode modificar esse script no console do AWS Glue.

    Para obter mais informações sobre como definir trabalhos no AWS Glue, consulte Criar trabalhos ETL visuais com o AWS Glue Studio.

  3. Execute seu trabalho para transformar seus dados.

    Você pode executar seu trabalho sob demanda, ou iniciá-lo com base em um destes tipos de gatilho:

    • Um gatilho baseado em uma programação cron.

    • Um gatilho baseado em eventos. Por exemplo, a conclusão bem-sucedida de outro trabalho pode iniciar um trabalho do AWS Glue.

    • Um gatilho que inicia um trabalho sob demanda.

    Para obter mais informações sobre gatilhos no AWS Glue, consulte Iniciar trabalhos e crawlers usando acionadores.

  4. Monitore seus crawlers programados e trabalhos acionados.

    Use o console do AWS Glue para visualizar o seguinte:

    • Detalhes e erros de execução do trabalho.

    • Detalhes e erros de execução do crawler.

    • Todas as notificações sobre atividades do AWS Glue

    Para obter mais informações sobre como monitorar crawlers e trabalhos no AWS Glue, consulte Como monitorar o AWS Glue.