Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Generazione di statistiche sulle colonne su richiesta
È possibile eseguire l'attività di statistica delle colonne per l'attività relativa alle AWS Glue Data Catalog tabelle su richiesta senza una pianificazione prestabilita. Questa opzione è utile per analisi ad hoc o quando le statistiche devono essere calcolate immediatamente.
Segui questi passaggi per generare statistiche sulle colonne su richiesta per le tabelle del Data Catalog utilizzando la console o. AWS Glue AWS CLI
- AWS Management Console
-
Per generare statistiche delle colonne utilizzando la console
-
Accedi alla AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/.
-
Seleziona le tabelle del Catalogo dati.
-
Scegliere una tabella dall'elenco.
-
Scegli Genera statistiche nel menu Azioni.
Puoi anche scegliere l'opzione Genera, Genera su richiesta nella scheda Statistiche delle colonne nella sezione inferiore della pagina Tabella.
Segui i passaggi da 7 a 11 Generazione di statistiche sulle colonne in base a una pianificazione per generare statistiche sulle colonne per la tabella.
-
Nella pagina Genera statistiche, specifica le seguenti opzioni:
-
Tutte le colonne: scegli questa opzione per generare statistiche per tutte le colonne della tabella.
-
Colonne selezionate: scegli questa opzione per generare statistiche per colonne specifiche. È possibile selezionare le colonne dall'elenco a discesa.
-
IAMruolo: scegli Crea un nuovo IAM ruolo con i criteri di autorizzazione necessari per eseguire l'attività di generazione delle statistiche sulle colonne. Scegli Visualizza i dettagli delle autorizzazioni per rivedere la dichiarazione sulla politica. Puoi anche selezionare un IAM ruolo dall'elenco. Per ulteriori informazioni sulle autorizzazioni richieste, consulta Prerequisiti per la generazione delle statistiche delle colonne.
AWS Glue assume le autorizzazioni del ruolo specificato per generare statistiche.
Per ulteriori informazioni sulla fornitura di ruoli per AWS Glue, consulta Politiche basate sull'identità per. AWS Glue.
-
(Facoltativo) Scegli quindi una configurazione di sicurezza per abilitare la crittografia dei dati inattivi per i log.
-
Righe di esempio: scegli solo una percentuale specifica di righe dalla tabella per generare statistiche. Il valore predefinito è Tutte le righe. Utilizzate le frecce su e giù per aumentare o diminuire il valore percentuale.
Includi tutte le righe nella tabella per calcolare statistiche accurate. Utilizza righe di esempio per generare statistiche delle colonne solo quando i valori approssimativi sono accettabili.
Scegli Genera statistiche per eseguire l'attività.
- AWS CLI
-
Questo comando attiverà un'attività di statistica delle colonne per la tabella specificata. È necessario fornire il nome del database, il nome della tabella, un IAM ruolo con i permessi per generare statistiche e, facoltativamente, fornire i nomi delle colonne e una percentuale di dimensione del campione per il calcolo delle statistiche.
aws glue start-column-statistics-task-run \
--database-name 'database_name
\
--table-name 'table_name
' \
--role 'arn:aws:iam::123456789012
:role/stats-role
' \
--column-name 'col1
','col2
' \
--sample-size 10.0
Questo comando avvierà un'attività per generare statistiche sulle colonne per la tabella specificata.
Aggiornamento delle statistiche delle colonne su richiesta
Il mantenimento delle statistiche sulle up-to-date colonne è fondamentale per l'ottimizzazione delle query per generare piani di esecuzione efficienti, garantendo migliori prestazioni delle query, riduzione del consumo di risorse e migliori prestazioni complessive del sistema. Questo processo è particolarmente importante dopo modifiche significative dei dati, ad esempio caricamenti di massa o modifiche estese, che possono rendere obsolete le statistiche esistenti.
È necessario eseguire esplicitamente l'attività Genera statistiche dalla AWS Glue console per aggiornare le statistiche delle colonne. Il Catalogo dati non aggiorna automaticamente le statistiche.
Se non si utilizza AWS Glue la funzionalità di generazione delle statistiche nella console, è possibile aggiornare manualmente le statistiche delle colonne utilizzando l'UpdateColumnStatisticsForTableAPIoperazione o. AWS CLI L'esempio seguente mostra come aggiornare le statistiche delle colonne utilizzando AWS CLI.
aws glue update-column-statistics-for-table --cli-input-json:
{
"CatalogId": "111122223333
",
"DatabaseName": "database_name
",
"TableName": "table_name
",
"ColumnStatisticsList": [
{
"ColumnName": "col1
",
"ColumnType": "Boolean",
"AnalyzedTime": "1970-01-01T00:00:00",
"StatisticsData": {
"Type": "BOOLEAN",
"BooleanColumnStatisticsData": {
"NumberOfTrues": 5,
"NumberOfFalses": 5,
"NumberOfNulls": 0
}
}
}
]
}