Usar um crawler para adicionar uma tabela
Os crawlers do AWS Glue ajudam a descobrir o esquema para conjuntos de dados e registrá-los no catálogo de dados do AWS Glue. Os crawlers passam pelos dados e determinam o esquema. Além disso, o crawler pode detectar e registrar partições. Para obter mais informações, consulte Definir crawlers no Guia do desenvolvedor do AWS Glue. Tabelas de dados que foram rastreadas com sucesso podem ser consultadas no Athena.
nota
O Athena não reconhece os padrões de exclusão que você especifica para um crawler do AWS Glue. Por exemplo, se você tem um bucket do Amazon S3 com os arquivos .csv
e .json
e exclui os arquivos .json
do crawler, o Athena consulta os dois grupos de arquivos. Para evitar isso, coloque os arquivos que você deseja excluir em um local diferente.
Criar um crawler do AWS Glue
É possível criar um crawler começando no console do Athena e usando o console do AWS Glue de forma integrada. Ao criar o crawler, você especifica um local de dados no Amazon S3 para crawling.
Para criar um crawler no AWS Glue começando do console do Athena
Abra o console do Athena em https://console.aws.amazon.com/athena/
. -
No editor de consultas, ao lado de Tabelas e visualizações, escolha Criar e, em seguida, selecione Crawler do AWS Glue.
-
No console do AWS Glue, na página Add crawler (Adicionar crawler), siga as etapas para criar um crawler. Para obter mais informações, consulte Usar crawlers do AWS Glue neste guia e Como preencher o AWS Glue Data Catalog no Guia do desenvolvedor do AWS Glue.
nota
O Athena não reconhece os padrões de exclusão que você especifica para um crawler do AWS Glue. Por exemplo, se você tem um bucket do Amazon S3 com os arquivos .csv
e .json
e exclui os arquivos .json
do crawler, o Athena consulta os dois grupos de arquivos. Para evitar isso, coloque os arquivos que você deseja excluir em um local diferente.
Depois de um rastreamento, o crawler do AWS Glue atribui automaticamente determinados metadados para ajudar a torná-los compatíveis com outras tecnologias externas, como Apache Hive, Presto e Spark. Às vezes, o crawler pode atribuir incorretamente propriedades de metadados. Corrija manualmente as propriedades no AWS Glue antes de consultar a tabela usando o Athena. Para obter mais informações, consulte Exibir e editar detalhes da tabela no Guia do desenvolvedor do AWS Glue.
O AWS Glue pode atribuir indevidamente metadados quando um arquivo CSV tem aspas em torno de cada campo de dados, processando a propriedade serializationLib
incorretamente. Para ter mais informações, consulte Lidar com dados CSV entre aspas.