Criação de tabelas para trabalhos de ETL - Amazon Athena

Criação de tabelas para trabalhos de ETL

É possível usar o Athena para criar tabelas que o AWS Glue possa usar para trabalhos de ETL. Os trabalhos do AWS Glue usam operações de ETL. Um trabalho do AWS Glue executa um script que extrai dados de fontes, transforma os dados e os carrega em destinos. Para obter mais informações, consulte Criação de trabalhos no AWS Glue no Guia do desenvolvedor do AWS Glue.

Criar tabelas no Athena para trabalhos ETL do AWS Glue

As tabelas que você cria no Athena devem ter uma propriedade de tabela adicionada chamada classification, que identifica o formato dos dados. Isso permite que o AWS Glue use as tabelas para trabalhos de ETL. Os valores de classificação podem ser avro, csv, json, orc, parquet ou xml. Veja abaixo um exemplo da instrução CREATE TABLE no Athena:

CREATE EXTERNAL TABLE sampleTable ( column1 INT, column2 INT ) STORED AS PARQUET TBLPROPERTIES ( 'classification'='parquet')

Se a propriedade da tabela classification não tiver sido adicionada quando a tabela foi criada, a propriedade poderá ser adicionada com o console do AWS Glue.

Para adicionar a propriedade de classificação da tabela usando o console do AWS Glue
  1. Faça login no AWS Management Console e abra o console do AWS Glue em https://console.aws.amazon.com/glue/.

  2. No painel de navegação do console, escolha Tables (Tabelas).

  3. Escolha o link da tabela que deseja editar e, em seguida, escolha Actions (Ações) e Edit table (Editar tabela).

  4. Role para baixo até a seção Table properties (Propriedades da tabela).

  5. Escolha Adicionar.

  6. Em Chave, digite classification.

  7. Em Value (Valor), insira um tipo de dado (por exemplo, json).

  8. Escolha Salvar.

    Na seção Table details (Detalhes da tabela), o tipo de dado que você inseriu aparece no campo Classification (Classificação) da tabela.

Para obter mais informações, consulte Trabalhar com tabelas no Guia do desenvolvedor do AWS Glue.

Usar trabalhos de ETL para otimizar a performance da consulta

Os trabalhos do AWS Glue podem ajudar a transformar os dados em um formato que otimiza a performance das consultas no Athena. Os formatos de dados têm um grande impacto na performance e nos custos das consultas no Athena.

O AWS Glue permite a gravação nos formatos de dados Parquet e ORC. Você pode usar esse recurso para transformar seus dados para uso no Athena. Para obter mais informações sobre o uso de Parquet e ORC e outras maneiras de melhorar o desempenho no Athena, leia Top 10 performance tuning tips for Amazon Athena.

nota

Para reduzir as chances de o Athena não conseguir ler os tipos de dados SMALLINT e TINYINT produzidos por um trabalho de ETL do AWS Glue, converta SMALLINT e TINYINT em INT ao criar um trabalho de ETL que converte dados para ORC.

Automatizar trabalhos do AWS Glue para ETL

Você pode configurar trabalhos de ETL do AWS Glue para serem executados automaticamente com base em gatilhos. Esse recurso é ideal quando há dados de fora da AWS sendo enviados para um bucket do Amazon S3 em um formato inadequado para consultas no Athena. Para obter mais informações, consulte Iniciar trabalhos do AWS Glue usando gatilhos no Guia do desenvolvedor do AWS Glue.