Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Optimisation des performances des requêtes à l'aide des statistiques des colonnes
Vous pouvez calculer des statistiques au niveau des colonnes pour AWS Glue Data Catalog des tables dans des formats de données tels que Parquet,ORC,JSON,ION,CSV, et XML sans configurer de pipelines de données supplémentaires. Les statistiques de colonne vous aident à comprendre les profils de données en obtenant des informations sur les valeurs d'une colonne.
Le catalogue de données prend en charge la génération de statistiques pour les valeurs de colonne telles que la valeur minimale, la valeur maximale, le total des valeurs nulles, le total des valeurs distinctes, la longueur moyenne des valeurs et le nombre total d'occurrences de valeurs vraies. AWS des services analytiques tels qu'Amazon Redshift et Amazon Athena peuvent utiliser ces statistiques de colonne pour générer des plans d'exécution des requêtes et choisir le plan optimal qui améliore les performances des requêtes.
Il existe trois scénarios pour générer des statistiques sur les colonnes :
- Automatique
AWS Glue prend en charge la génération automatique de statistiques sur les colonnes au niveau du catalogue afin de pouvoir générer automatiquement des statistiques pour les nouvelles tables du. AWS Glue Data Catalog
- Programmé
AWS Glue prend en charge la génération de statistiques de colonne de planification afin qu'elle puisse être exécutée automatiquement selon un calendrier récurrent.
Avec le calcul planifié des statistiques, la tâche de statistiques sur les colonnes met à jour les statistiques globales au niveau de la table, telles que min, max et avg, avec les nouvelles statistiques, fournissant aux moteurs de requêtes des statistiques précises et up-to-date permettant d'optimiser l'exécution des requêtes.
- À la demande
Utilisez cette option pour générer des statistiques de colonnes à la demande chaque fois que cela est nécessaire. Cela est utile pour les analyses ad hoc ou lorsque les statistiques doivent être calculées immédiatement.
Vous pouvez configurer pour exécuter une tâche de génération de statistiques de colonne à l'aide de AWS Glue la console et AWS Glue API des opérations. AWS CLI Lorsque vous lancez le processus, AWS Glue démarre une tâche Spark en arrière-plan et met à jour les métadonnées de la AWS Glue table dans le catalogue de données. Vous pouvez consulter les statistiques des colonnes à l'aide de la AWS Glue console AWS CLI ou en appelant l'GetColumnStatisticsForTableAPIopération.
Note
Si vous utilisez les autorisations de Lake Formation pour contrôler l'accès à la table, le rôle assumé par la tâche de statistiques de colonne nécessite un accès complet à la table pour générer des statistiques.
La vidéo suivante montre comment améliorer les performances des requêtes à l'aide des statistiques de colonnes.
Rubriques
- Conditions préalables à la génération de statistiques de colonne
- Génération automatique de statistiques sur les colonnes
- Génération de statistiques sur les colonnes selon un calendrier
- Génération de statistiques de colonnes à la demande
- Affichage des statistiques de colonne
- Affichage des exécutions de tâches de statistiques de colonne
- Arrêt d'exécution de la tâche de statistiques de colonne
- Supprimer les statistiques de colonne
- Considérations et restrictions