Criação de tabelas para trabalhos de ETL
É possível usar o Athena para criar tabelas que o AWS Glue possa usar para trabalhos de ETL. Os trabalhos do AWS Glue usam operações de ETL. Um trabalho do AWS Glue executa um script que extrai dados de fontes, transforma os dados e os carrega em destinos. Para obter mais informações, consulte Criação de trabalhos no AWS Glue no Guia do desenvolvedor do AWS Glue.
Criar tabelas no Athena para trabalhos ETL do AWS Glue
As tabelas que você cria no Athena devem ter uma propriedade de tabela adicionada chamada classification
, que identifica o formato dos dados. Isso permite que o AWS Glue use as tabelas para trabalhos de ETL. Os valores de classificação podem ser avro
, csv
, json
, orc
, parquet
ou xml
. Veja abaixo um exemplo da instrução CREATE TABLE
no Athena:
CREATE EXTERNAL TABLE sampleTable ( column1 INT, column2 INT ) STORED AS PARQUET TBLPROPERTIES ( 'classification'='parquet')
Se a propriedade da tabela classification
não tiver sido adicionada quando a tabela foi criada, a propriedade poderá ser adicionada com o console do AWS Glue.
Para adicionar a propriedade de classificação da tabela usando o console do AWS Glue
Faça login no AWS Management Console e abra o console do AWS Glue em https://console.aws.amazon.com/glue/
. -
No painel de navegação do console, escolha Tables (Tabelas).
-
Escolha o link da tabela que deseja editar e, em seguida, escolha Actions (Ações) e Edit table (Editar tabela).
-
Role para baixo até a seção Table properties (Propriedades da tabela).
-
Escolha Adicionar.
-
Em Chave, digite
classification
. -
Em Value (Valor), insira um tipo de dado (por exemplo,
json
). -
Escolha Salvar.
Na seção Table details (Detalhes da tabela), o tipo de dado que você inseriu aparece no campo Classification (Classificação) da tabela.
Para obter mais informações, consulte Trabalhar com tabelas no Guia do desenvolvedor do AWS Glue.
Usar trabalhos de ETL para otimizar a performance da consulta
Os trabalhos do AWS Glue podem ajudar a transformar os dados em um formato que otimiza a performance das consultas no Athena. Os formatos de dados têm um grande impacto na performance e nos custos das consultas no Athena.
O AWS Glue permite a gravação nos formatos de dados Parquet e ORC. Você pode usar esse recurso para transformar seus dados para uso no Athena. Para obter mais informações sobre o uso de Parquet e ORC e outras maneiras de melhorar o desempenho no Athena, leia Top 10 performance tuning tips for Amazon Athena
nota
Para reduzir as chances de o Athena não conseguir ler os tipos de dados SMALLINT
e TINYINT
produzidos por um trabalho de ETL do AWS Glue, converta SMALLINT
e TINYINT
em INT
ao criar um trabalho de ETL que converte dados para ORC.
Automatizar trabalhos do AWS Glue para ETL
Você pode configurar trabalhos de ETL do AWS Glue para serem executados automaticamente com base em gatilhos. Esse recurso é ideal quando há dados de fora da AWS sendo enviados para um bucket do Amazon S3 em um formato inadequado para consultas no Athena. Para obter mais informações, consulte Iniciar trabalhos do AWS Glue usando gatilhos no Guia do desenvolvedor do AWS Glue.