Crea tabelle per lavori ETL - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Crea tabelle per lavori ETL

È possibile utilizzare Athena per creare tabelle AWS Glue utilizzabili per i lavori ETL. AWS Glue i lavori eseguono operazioni ETL. Un AWS Glue job esegue uno script che estrae i dati dalle fonti, li trasforma e li carica in destinazioni. Per ulteriori informazioni, consulta Authoring Jobs in AWS Glue nella AWS Glue Developer Guide.

Creazione di tabelle Athena per lavori ETL AWS Glue

Alle tabelle da te create in Athena devi aggiungere una proprietà di tabella, denominata classification, che identifica il formato dei dati. Ciò consente a AWS Glue di utilizzare le tabelle per processi ETL. I valori di classificazione possono essere avro, csv, json, orc, parquet o xml. Di seguito è riportata un'istruzione CREATE TABLE di esempio in Athena:

CREATE EXTERNAL TABLE sampleTable ( column1 INT, column2 INT ) STORED AS PARQUET TBLPROPERTIES ( 'classification'='parquet')

Se la proprietà della classification tabella non è stata aggiunta al momento della creazione della tabella, puoi aggiungerla utilizzando la AWS Glue console.

Per aggiungere la proprietà della tabella di classificazione utilizzando la AWS Glue console
  1. Accedi a AWS Management Console e apri la AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/.

  2. Nel pannello di navigazione della console, seleziona Tables (Tabelle).

  3. Scegli il collegamento per la tabella che desideri modificare, quindi scegli Actions (Operazioni), Edit table details (Modifica tabella).

  4. Scorri verso il basso fino alla sezione Table properties (Proprietà della tabella).

  5. Scegli Aggiungi.

  6. In Chiave, inserire classification.

  7. Per Value (Valore), inserisci un tipo di dati (ad esempio, json).

  8. Seleziona Salva.

    Nella sezione Table details (Dettagli della tabella), il tipo di dati che hai inserito appare nel campo Classification (Classificazione) della tabella.

Per ulteriori informazioni, consulta l'argomento relativo all'utilizzo delle tabelle nella Guida per sviluppatori AWS Glue .

Utilizza i job ETL per ottimizzare le prestazioni delle query

AWS Glue jobs possono aiutarti a trasformare i dati in un formato che ottimizza le prestazioni delle query in Athena. I formati dei dati influiscono moltissimo sulle prestazioni delle query e sui costi delle query in Athena.

AWS Glue supporta la scrittura nei formati di dati Parquet e ORC. Puoi utilizzare questa funzionalità per trasformare i tuoi dati da utilizzare in Athena. Per ulteriori informazioni sull'utilizzo di Parquet e ORC e su altri modi per migliorare le prestazioni in Athena, consulta i 10 migliori suggerimenti per l'ottimizzazione delle prestazioni per Amazon Athena.

Nota

Per ridurre la probabilità che Athena non sia in grado di leggere SMALLINT i tipi di dati TINYINT e prodotti da AWS Glue un processo ETL, SMALLINT converti TINYINT e INT verso quando crei un processo ETL che converte i dati in ORC.

Automatizza i lavori per ETL AWS Glue

È possibile configurare i processi AWS Glue ETL in modo che vengano eseguiti automaticamente in base ai trigger. Questa funzionalità è ideale quando i dati dall'esterno AWS vengono inviati a un bucket Amazon S3 in un formato altrimenti non ottimale per l'esecuzione di query in Athena. Per ulteriori informazioni, consulta AWS Glue Triggering jobs nella Developer Guide.AWS Glue