Ottimizzazione delle prestazioni delle query utilizzando le statistiche delle colonne - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ottimizzazione delle prestazioni delle query utilizzando le statistiche delle colonne

È possibile calcolare statistiche a livello di colonna per AWS Glue Data Catalog tabelle in formati di dati come Parquet,,, ORC JSON IONCSV, e XML senza configurare pipeline di dati aggiuntive. Le statistiche delle colonne consentono di comprendere i profili di dati ottenendo informazioni dettagliate sui valori all'interno di una colonna.

Data Catalog supporta la generazione di statistiche per valori di colonna come valore minimo, valore massimo, valori nulli totali, valori distinti totali, lunghezza media dei valori e occorrenze totali di valori reali. AWS servizi di analisi come Amazon Redshift Amazon Athena possono utilizzare queste statistiche a colonne per generare piani di esecuzione delle query e scegliere il piano ottimale che migliori le prestazioni delle query.

Esistono tre scenari per la generazione di statistiche sulle colonne:

Automatico

AWS Glue supporta la generazione automatica di statistiche sulle colonne a livello di catalogo in modo da poter generare automaticamente statistiche per nuove tabelle in. AWS Glue Data Catalog

Pianificato

AWS Glue supporta la generazione di statistiche sulle colonne di pianificazione in modo che possa essere eseguita automaticamente in base a una pianificazione ricorrente.

Con il calcolo pianificato delle statistiche, l'attività di statistica delle colonne aggiorna le statistiche complessive a livello di tabella, ad esempio min, max e avg, con le nuove statistiche, fornendo ai motori di query statistiche accurate e per ottimizzare l'esecuzione delle query. up-to-date

Su richiesta

Utilizzate questa opzione per generare statistiche sulle colonne su richiesta ogni volta che è necessario. Ciò è utile per analisi ad hoc o quando le statistiche devono essere calcolate immediatamente.

È possibile configurare l'esecuzione di attività di generazione di statistiche sulle colonne utilizzando la AWS Glue console e le operazioni. AWS CLI AWS Glue API Quando avvii il processo, AWS Glue avvia un job Spark in background e aggiorna i metadati della AWS Glue tabella nel Data Catalog. Puoi visualizzare le statistiche delle colonne usando la AWS Glue console AWS CLI o chiamando l'operazione. GetColumnStatisticsForTableAPI

Nota

Se utilizzi le autorizzazioni di Lake Formation per controllare l'accesso alla tabella, il ruolo assunto dall'attività di statistica delle colonne richiede l'accesso completo alla tabella per generare statistiche.

Il video seguente mostra come migliorare le prestazioni delle query utilizzando le statistiche delle colonne.