Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ottimizzazione delle prestazioni delle query utilizzando le statistiche delle colonne
È possibile calcolare statistiche a livello di colonna per AWS Glue Data Catalog tabelle in formati di dati come Parquet,,, ORC JSON IONCSV, e XML senza configurare pipeline di dati aggiuntive. Le statistiche delle colonne consentono di comprendere i profili di dati ottenendo informazioni dettagliate sui valori all'interno di una colonna.
Data Catalog supporta la generazione di statistiche per valori di colonna come valore minimo, valore massimo, valori nulli totali, valori distinti totali, lunghezza media dei valori e occorrenze totali di valori reali. AWS servizi di analisi come Amazon Redshift Amazon Athena possono utilizzare queste statistiche a colonne per generare piani di esecuzione delle query e scegliere il piano ottimale che migliori le prestazioni delle query.
Esistono tre scenari per la generazione di statistiche sulle colonne:
- Automatico
AWS Glue supporta la generazione automatica di statistiche sulle colonne a livello di catalogo in modo da poter generare automaticamente statistiche per nuove tabelle in. AWS Glue Data Catalog
- Pianificato
AWS Glue supporta la generazione di statistiche sulle colonne di pianificazione in modo che possa essere eseguita automaticamente in base a una pianificazione ricorrente.
Con il calcolo pianificato delle statistiche, l'attività di statistica delle colonne aggiorna le statistiche complessive a livello di tabella, ad esempio min, max e avg, con le nuove statistiche, fornendo ai motori di query statistiche accurate e per ottimizzare l'esecuzione delle query. up-to-date
- Su richiesta
Utilizzate questa opzione per generare statistiche sulle colonne su richiesta ogni volta che è necessario. Ciò è utile per analisi ad hoc o quando le statistiche devono essere calcolate immediatamente.
È possibile configurare l'esecuzione di attività di generazione di statistiche sulle colonne utilizzando la AWS Glue console e le operazioni. AWS CLI AWS Glue API Quando avvii il processo, AWS Glue avvia un job Spark in background e aggiorna i metadati della AWS Glue tabella nel Data Catalog. Puoi visualizzare le statistiche delle colonne usando la AWS Glue console AWS CLI o chiamando l'operazione. GetColumnStatisticsForTableAPI
Nota
Se utilizzi le autorizzazioni di Lake Formation per controllare l'accesso alla tabella, il ruolo assunto dall'attività di statistica delle colonne richiede l'accesso completo alla tabella per generare statistiche.
Il video seguente mostra come migliorare le prestazioni delle query utilizzando le statistiche delle colonne.
Argomenti
- Prerequisiti per la generazione delle statistiche delle colonne
- Generazione automatica di statistiche sulle colonne
- Generazione di statistiche sulle colonne in base a una pianificazione
- Generazione di statistiche sulle colonne su richiesta
- Visualizzazione delle statistiche delle colonne
- Visualizzazione dell'attività relativa alle statistiche delle colonne
- Interruzione dell'esecuzione relativa alle statistiche delle colonne
- Eliminazione delle statistiche delle colonne
- Considerazioni e limitazioni