Usar um formulário no console do Athena para adicionar uma tabela do AWS Glue
O procedimento a seguir mostra como usar o console do Athena para adicionar uma tabela usando o formulário Create Table From S3 bucket data (Criar tabela a partir de bucket do S3).
Como adicionar uma tabela e inserir informações de esquema usando um formulário
Abra o console do Athena em https://console.aws.amazon.com/athena/
. -
No editor de consultas, ao lado de Tables and views (Tabelas e visualizações), escolha Create (Criar) e, em seguida, escolha S3 bucket data (Dados do bucket do S3).
-
No formulário Create Table From S3 bucket data (Criar tabela a partir de dados de bucket do S3), em Table name (Nome da tabela), insira um nome para a tabela. Para obter informações sobre caracteres aceitáveis em nomes de bancos de dados, nomes de tabelas e nomes de colunas no Athena, consulte Nomear bancos de dados, tabelas e colunas.
-
Em Database configuration (Configuração do banco de dados), escolha um banco de dados existente ou crie um.
-
Em Location of Input Data Set (Local do conjunto de dados de entrada), especifique o caminho no Amazon S3 para a pasta que contém o conjunto de dados que você deseja processar. Não inclua um nome de arquivo no caminho. O Athena verifica todos os arquivos na pasta especificada. Se seus dados já estiverem particionados (p. ex.,
s3://amzn-s3-demo-bucket/logs/year=2004/month=12/day=11/), insira somente o caminho base (por exemplo, s3://amzn-s3-demo-bucket/logs/).
-
Em Data format (Formato de dados), escolha entre as seguintes opções:
-
Em Table type (Tipo de tabela), escolha Apache Hive, Apache Iceberg ou Delta Lake. O Athena usa o tipo de tabela Apache Hive como padrão. Para obter informações sobre como consultar tabelas do Apache Iceberg no Athena, consulte Consultar tabelas do Apache Iceberg. Para obter informações sobre como usar tabelas do Delta Lake no Athena, consulte Consultar tabelas do Linux Foundation Delta Lake.
-
Em File format (Formato de arquivo), escolha o formato de arquivo ou log dos seus dados.
-
Na opção Text File with Custom Delimiters (Arquivo de texto com delimitadores personalizados), especifique um Field terminator (Terminador de campo) (ou seja, um delimitador de coluna). Opcionalmente, você pode especificar um terminador de coleção que marque o fim de um tipo de matriz ou um terminador de coleção que marque o fim de um tipo de dados de mapa.
-
-
Biblioteca SerDe: uma biblioteca SerDe (serializador-desserializador) analisa um formato de dados específico para que o Athena possa criar uma tabela para ele. Para a maioria dos formatos, uma biblioteca SerDe padrão é escolhida para você. Para os formatos a seguir, escolha uma biblioteca de acordo com seus requisitos:
-
Apache Web Logs: escolha a biblioteca RegexSerDe ou GrokserDe. Para RegexSerDe, forneça uma expressão regular na caixa Regex definition (Definição Regex). Para GrokserDe, forneça uma série de expressões regulares nomeadas para a propriedade SerDe
input.format
. As expressões regulares nomeadas são mais fáceis de ler e manter do que as expressões regulares. Para ter mais informações, consulte Consulta de logs do Apache armazenados no Amazon S3. -
CSV: escolha LazySimpleSerDe se seus dados separados por vírgula não contiverem valores entre aspas duplas ou se usarem o formato
java.sql.Timestamp
. Escolha OpenCSVSerDe se os dados incluírem aspas ou usarem o formato numérico UNIX paraTIMESTAMP
(p. ex.,1564610311
). Para ter mais informações, consulte Lazy Simple SerDe para arquivos CSV, TSV e com delimitação personalizada e Open CSV SerDe para processamento de CSV. -
JSON: escolha a biblioteca OpenX ou Hive JSON SerDe. Os dois formatos esperam que cada documento JSON esteja em uma única linha de texto e que os campos não sejam separados por caracteres de nova linha. O OpenX SerDe oferece algumas propriedades adicionais. Para obter mais informações sobre essas propriedades, consulte OpenX JSON SerDe. Para obter mais informações sobre o Hive SerDe, consulte Hive JSON SerDe.
Para obter mais informações sobre como usar as bibliotecas SerDe no Athena, consulte Escolha de um SerDe para seus dados.
-
-
-
Em SerDe properties (Propriedades de SerDe), adicione, edite ou remova propriedades e valores de acordo com a biblioteca SerDe que você estiver usando e seus requisitos.
-
Para adicionar uma propriedade SerDe, escolha Add SerDe property (Adicionar propriedade SerDe).
-
No campo Name (Nome), insira o nome da propriedade.
-
No campo Value (Valor), insira um valor para a propriedade.
-
Para remover uma propriedade SerDe, escolha Remove (Remover).
-
-
Em Table properties (Propriedades da tabela), escolha ou edite as propriedades da tabela de acordo com seus requisitos.
-
Em Propriedades da tabela (Compactação de gravação), escolha uma opção de compactação. A disponibilidade da opção de compactação de gravação e das opções de compactação disponíveis depende do formato dos dados. Para ter mais informações, consulte Usar compactação no Athena.
-
Para Encryption (Criptografia), selecione Encrypted data set (Conjunto de dados criptografados) se os dados subjacentes estiverem criptografados no Amazon S3. Essa opção define a propriedade
has_encrypted_data
da tabela como verdadeira na instruçãoCREATE TABLE
.
-
-
Em Column details (Detalhes da coluna), insira os nomes e os tipos de dados das colunas que você deseja adicionar à tabela.
-
Para adicionar mais colunas uma de cada vez, escolha Add a column (Adicionar uma coluna).
-
Para adicionar rapidamente mais colunas, escolha Bulk add columns (Adicionar colunas em massa). Na caixa de texto, insira uma lista separada por vírgulas de colunas no formato
column_name
data_type
,column_name
data_type
[, …] e escolha Add (Adicionar).
-
-
(Opcional) Em Partition details (Detalhes da partição), adicione um ou mais nomes de colunas e tipos de dados. O particionamento mantém os dados relacionados juntos com base nos valores das colunas e pode ajudar a reduzir a quantidade de dados digitalizados por consulta. Para obter informações sobre particionamento, consulte Particionar dados.
-
(Opcional) Em Bucketing, você pode especificar uma ou mais colunas que tenham linhas que você deseja agrupar e, em seguida, colocar essas linhas em vários buckets. Isso permite que você consulte somente o bucket que deseja ler quando o valor das colunas agrupadas for especificado.
-
Para Buckets, selecione uma ou mais colunas que tenham um grande número de valores exclusivos (p. ex., uma chave primária) e que sejam frequentemente usadas para filtrar os dados em suas consultas.
-
Em Number of buckets (Número de buckets), insira um número que permita que os arquivos tenham o tamanho ideal. Para obter mais informações, consulte Top 10 Performance Tuning Tips for Amazon Athena
(As 10 melhores dicas para ajustar o desempenho do Amazon Athena) no AWS Big Data Blog. -
Para especificar suas colunas agrupadas, a instrução
CREATE TABLE
usará a seguinte sintaxe:CLUSTERED BY (
bucketed_columns
) INTOnumber_of_buckets
BUCKETS
nota
A opção Bucketing (Agregar em bucket) não está disponível para o tipo de tabela do Iceberg.
-
-
A caixa Preview table query (Previsualizar consulta da tabela) mostra a instrução
CREATE TABLE
gerada pelas informações inseridas no formulário. A instrução de visualização não pode ser editada diretamente. Para alterar a instrução, modifique os campos no formulário acima da visualização ou crie a instrução diretamente no editor de consultas em vez de usar o formulário. -
Selecione Create table (Criar tabela) para executar a instrução gerada no editor de consultas e criar a tabela.