Connessione alle origini dati

Puoi utilizzare Amazon Athena per eseguire query sui dati archiviati in posizioni e formati differenti in un set di dati. Il formato di questo set di dati potrebbe essere CSV, JSON, Avro, Parquet o un altro.

Le tabelle e i database che utilizzi in Athena per eseguire query sono basati su metadati. I metadati sono dati relativi ai dati sottostanti nel set di dati. Il modo in cui i metadati descrivono il set di dati viene chiamato schema. Ad esempio, un nome di tabella, i nomi di colonna nella tabella e il tipo di dati di ogni colonna sono uno schema, salvato come metadati, che descrive un set di dati sottostante. In Athena, un sistema per l'organizzazione dei metadati viene chiamato un catalogo dati o un metastore. La combinazione di un set di dati e del catalogo dati che lo descrive viene chiamata origine dati.

La relazione di metadati rispetto a un set di dati sottostante dipende dal tipo di origine dati utilizzato. Le origini dati relazionali come MySQL, PostgreSQL e SQL Server integrano strettamente i metadati con il set di dati. In questi sistemi, i metadati vengono spesso scritti al momento della scrittura dei dati. Altre fonti di dati, come quelle create con Hive, consentono di definire i metadati on-the-fly quando si legge il set di dati. Il set di dati può essere in diversi formati, ad esempio CSV, JSON, Parquet o Avro.

Athena supporta nativamente il. AWS Glue Data Catalog AWS Glue Data Catalog È un catalogo di dati basato su altri set di dati e fonti di dati come Amazon S3, Amazon Redshift e Amazon DynamoDB. Puoi inoltre connettere Athena ad altre origini dati utilizzando diversi connettori.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Passaggio 6: Connect ad altre fonti di dati

Usa AWS Glue