Activation de la génération automatique de statistiques au niveau du catalogue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Activation de la génération automatique de statistiques au niveau du catalogue

Vous pouvez activer la génération automatique de statistiques de colonnes pour toutes les nouvelles tables Apache Iceberg et les tables dans des formats autres que les OTF tables (Parquet JSONCSV,,XML,ORC,,ION) dans le catalogue de données. Après avoir créé la table, vous pouvez également mettre à jour manuellement de manière explicite les paramètres des statistiques des colonnes.

Pour mettre à jour les paramètres du catalogue de données afin de les activer au niveau du catalogue, le IAM rôle utilisé doit disposer de l'glue:UpdateCatalogautorisation ou de l' AWS Lake Formation ALTER CATALOGautorisation sur le catalogue racine. Vous pouvez l'utiliser GetCatalog API pour vérifier les propriétés du catalogue.

AWS Management Console
Pour activer la génération automatique de statistiques par colonne au niveau du compte
  1. Ouvrez la console Lake Formation à l'adresse https://console.aws.amazon.com/lakeformation/.

  2. Dans la barre de navigation de gauche, sélectionnez Catalogues.

  3. Sur la page de résumé du catalogue, choisissez Modifier sous Configuration de l'optimisation.

    La capture d'écran montre les options disponibles pour générer des statistiques de colonne.
  4. Sur la page de configuration de l'optimisation des tables, choisissez l'option Activer la génération automatique de statistiques pour les tables du catalogue.

    La capture d'écran montre les options disponibles pour générer des statistiques de colonne.
  5. Choisissez un IAM rôle existant ou créez-en un nouveau doté des autorisations nécessaires pour exécuter la tâche de statistiques sur les colonnes.

  6. Sélectionnez Envoyer.

AWS CLI

Vous pouvez également activer la collecte de statistiques au niveau du catalogue via le. AWS CLI Pour configurer la collecte de statistiques au niveau des tables à l'aide de AWS CLI, exécutez la commande suivante :

aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
                   

La commande ci-dessus appelle AWS Glue l'UpdateCatalogopération, qui prend en compte une CatalogProperties structure avec les paires clé-valeur suivantes pour la génération de statistiques au niveau du catalogue :

  • ColumnStatistics. RoleArn — IAM rôle ARN à utiliser pour toutes les tâches déclenchées pour la génération de statistiques au niveau du catalogue

  • ColumnStatistics.Enabled — Booléen indiquant si les paramètres au niveau du catalogue sont activés ou désactivés