Génération de statistiques sur les colonnes selon un calendrier - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Génération de statistiques sur les colonnes selon un calendrier

Suivez ces étapes pour configurer un calendrier de génération de statistiques de colonne à l' AWS Glue Data Catalog aide de la AWS Glue console, de l' AWS CLI opération ou de l'CreateColumnStatisticsTaskSettingsopération.

Console
Pour générer des statistiques de colonne à l'aide de la console
  1. Connectez-vous à la AWS Glue console à l'adresse https://console.aws.amazon.com/glue/.

  2. Choisissez des tables du catalogue de donnée.

  3. Choisissez une table dans la liste.

  4. Choisissez l'onglet Statistiques des colonnes dans la section inférieure de la page Tables.

  5. Vous pouvez également sélectionner Générer selon le calendrier sous Statistiques des colonnes depuis Actions.

  6. Sur la page Générer des statistiques selon le calendrier, configurez un calendrier récurrent pour exécuter la tâche de statistiques sur les colonnes en choisissant la fréquence et l'heure de début. Vous pouvez choisir une fréquence horaire, quotidienne, hebdomadaire ou définir une expression cron pour spécifier le calendrier.

    Une expression cron est une chaîne représentant un modèle de planification, composée de 6 champs séparés par des espaces :* * * * * * <minute><hour><day of month><month><day of week><year>Par exemple, pour exécuter une tâche tous les jours à minuit, l'expression cron serait : 0 0 * * ? *

    Pour plus d'informations, consultez la section Expressions Cron.

    La capture d'écran montre les options disponibles pour générer des statistiques de colonne.
  7. Ensuite, choisissez l'option de colonne pour générer des statistiques.

    • Toutes les colonnes — Choisissez cette option pour générer des statistiques pour toutes les colonnes du tableau.

    • Colonnes sélectionnées : choisissez cette option pour générer des statistiques pour des colonnes spécifiques. Vous pouvez sélectionner les colonnes dans la liste déroulante.

  8. Choisissez un IAM rôle ou créez un rôle existant autorisé à générer des statistiques. AWS Glue assume ce rôle pour générer des statistiques de colonne.

    Une approche plus rapide consiste à laisser la AWS Glue console créer un rôle pour vous. Le rôle qu'il crée est spécifiquement destiné à générer des statistiques sur les colonnes et inclut la politique AWSGlueServiceRole AWS gérée ainsi que la politique en ligne requise pour la source de données spécifiée.

    Si vous spécifiez un rôle existant pour générer des statistiques de colonne, assurez-vous qu'il inclut la AWSGlueServiceRole politique ou un équivalent (ou une version réduite de cette politique), ainsi que les politiques intégrées requises.

  9. (Facultatif) Choisissez ensuite une configuration de sécurité pour activer le chiffrement au repos des journaux.

  10. (Facultatif) Vous pouvez choisir une taille d'échantillon en indiquant uniquement un pourcentage spécifique de lignes du tableau pour générer des statistiques. La valeur par défaut est toutes les lignes. Utilisez les flèches haut et bas pour augmenter ou diminuer la valeur en pourcentage.

    Nous vous recommandons d'inclure toutes les lignes de la table pour calculer des statistiques précises. Utilisez des exemples de lignes pour générer des statistiques de colonne uniquement lorsque des valeurs approximatives sont acceptables.

  11. Choisissez Générer des statistiques pour exécuter la tâche de génération des statistiques de colonne.

AWS CLI

Vous pouvez utiliser l' AWS CLI exemple suivant pour créer un calendrier de génération de statistiques de colonnes. Le nom de la base de données, le nom de la table et le rôle sont des paramètres obligatoires, tandis que les paramètres facultatifs sont le planning, l'identifiant du catalogue column-name-list, la taille de l'échantillon et la configuration de sécurité.

aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-name table_name \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0 ' \ --security-configuration 'test-security'

Vous pouvez également générer des statistiques de colonne en appelant l'StartColumnStatisticsTaskRunopération.