Abilitazione della generazione automatica di statistiche a livello di catalogo - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Abilitazione della generazione automatica di statistiche a livello di catalogo

Puoi abilitare la generazione automatica di statistiche sulle colonne per tutte le nuove tabelle Apache Iceberg e le tabelle in formati non OTF tabellari (ParquetJSON,CSV,XML,,ORC,ION) nel Data Catalog. Dopo aver creato la tabella, puoi anche aggiornare esplicitamente le impostazioni delle statistiche delle colonne manualmente.

Per aggiornare le impostazioni del Data Catalog in modo da abilitare il livello di catalogo, il IAM ruolo utilizzato deve disporre dell'glue:UpdateCatalogautorizzazione o dell' AWS Lake Formation ALTER CATALOGautorizzazione sul catalogo principale. È possibile utilizzare GetCatalog API per verificare le proprietà del catalogo.

AWS Management Console
Per abilitare la generazione automatica di statistiche sulle colonne a livello di account
  1. Apri la console Lake Formation all'indirizzo https://console.aws.amazon.com/lakeformation/.

  2. Nella barra di navigazione a sinistra, scegli Cataloghi.

  3. Nella pagina di riepilogo del catalogo, scegli Modifica in Configurazione di ottimizzazione.

    La schermata mostra le opzioni disponibili per generare statistiche delle colonna.
  4. Nella pagina di configurazione dell'ottimizzazione della tabella, scegli l'opzione Abilita la generazione automatica di statistiche per le tabelle del catalogo.

    La schermata mostra le opzioni disponibili per generare statistiche delle colonna.
  5. Scegli un IAM ruolo esistente o creane uno nuovo con le autorizzazioni necessarie per eseguire l'attività di statistica delle colonne.

  6. Scegli Invia.

AWS CLI

È inoltre possibile abilitare la raccolta di statistiche a livello di catalogo tramite. AWS CLI Per configurare la raccolta di statistiche a livello di tabella utilizzando AWS CLI, esegui il comando seguente:

aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
                   

Il comando precedente richiama AWS Glue l'UpdateCatalogoperazione, che prevede una CatalogProperties struttura con le seguenti coppie chiave-valore per la generazione di statistiche a livello di catalogo:

  • ColumnStatistics. RoleArn — IAM ruolo ARN da utilizzare per tutte le attività attivate per la generazione di statistiche a livello di catalogo

  • ColumnStatistics.Enabled: valore booleano che indica se le impostazioni a livello di catalogo sono abilitate o disabilitate