Usa un crawler per aggiungere una tabella - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa un crawler per aggiungere una tabella

AWS Glue i crawler aiutano a scoprire lo schema dei set di dati e a registrarli come tabelle nel Data Catalog. AWS Glue I crawler analizzano i dati e ne determinano lo schema. Inoltre, il crawler è in grado di rilevare e registrare le partizioni. Per ulteriori informazioni, consultare Definizione di crawler nella Guida per gli sviluppatori di AWS Glue . Le tabelle dei dati correttamente sottoposte a ricerca per indicizzazione possono essere interrogate da Athena.

Nota

Athena non riconosce i pattern di esclusione specificati per un AWS Glue crawler. Ad esempio, se disponi di un bucket Amazon S3 che contiene i file .csv e .json ed escludi i file .json dal crawler, Athena esegue query su entrambi i gruppi di file. Per evitare ciò, posizionare i file che si desidera escludere in una posizione diversa.

Crea un crawler AWS Glue

Puoi creare un crawler partendo dalla console Athena e quindi utilizzando la console AWS Glue in un modo integrato. Quando crei il crawler, specifica una posizione dei dati in Amazon S3 per eseguire la ricerca per indicizzazione.

Per creare un crawler AWS Glue partendo dalla console Athena
  1. Apri la console Athena all'indirizzo https://console.aws.amazon.com/athena/.

  2. Nell'editor di query, accanto a Tabelle e visualizzazioni, scegli Crea e quindi scegli Crawler AWS Glue .

  3. Sulla paginaAggiungi crawler della console AWS Glue, segui i passaggi per creare un crawler. Per ulteriori informazioni, consulta Using AWS Glue Crawler in questa guida e Population the nella Developer Guide. AWS Glue Data CatalogAWS Glue

Nota

Athena non riconosce i pattern di esclusione specificati per un AWS Glue crawler. Ad esempio, se disponi di un bucket Amazon S3 che contiene i file .csv e .json ed escludi i file .json dal crawler, Athena esegue query su entrambi i gruppi di file. Per evitare ciò, posizionare i file che si desidera escludere in una posizione diversa.

Dopo una scansione, il AWS Glue crawler assegna automaticamente determinati metadati alla tabella per renderla compatibile con altre tecnologie esterne come Apache Hive, Presto e Spark. Occasionalmente, il crawler potrebbe assegnare le proprietà dei metadati in modo errato. Correggi manualmente le proprietà AWS Glue prima di interrogare la tabella usando Athena. Per ulteriori informazioni, consulta la sezione relativa alla visualizzazione e modifica dei dettagli tabella nella Guida per sviluppatori AWS Glue .

AWS Glue può assegnare erroneamente i metadati quando un CSV file contiene virgolette attorno a ogni campo di dati, sbagliando la proprietà. serializationLib Per ulteriori informazioni, consulta Gestione dei CSV dati racchiusi tra virgolette.