Génération automatique de statistiques sur les colonnes - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Génération automatique de statistiques sur les colonnes

La génération automatique de statistiques de colonnes vous permet de planifier et de calculer automatiquement les statistiques sur les nouvelles tables du AWS Glue Data Catalog. Lorsque vous activez la génération automatique de statistiques, le catalogue de données découvre de nouvelles tables avec des formats de données spécifiques tels que ParquetJSON,CSV,XML, ORCION, et Apache Iceberg, ainsi que leurs chemins de compartiment individuels. Avec une configuration de catalogue unique, le catalogue de données génère des statistiques pour ces tables.

Les administrateurs de Data Lake peuvent configurer la génération de statistiques en sélectionnant le catalogue par défaut dans la console Lake Formation et en activant les statistiques des tables à l'aide de Optimization configuration cette option. Lorsque vous créez de nouvelles tables ou que vous mettez à jour des tables existantes dans le catalogue de données, le catalogue de données collecte le nombre de valeurs distinctes (NDVs) pour les tables Apache Iceberg, ainsi que des statistiques supplémentaires telles que le nombre de valeurs nulles, la longueur maximale, minimale et moyenne pour les autres formats de fichiers pris en charge sur une base hebdomadaire.

Si vous avez configuré la génération de statistiques au niveau de la table ou si vous avez précédemment supprimé les paramètres de génération de statistiques d'une table, ces paramètres spécifiques à la table ont priorité sur les paramètres de catalogue par défaut pour la génération automatique de statistiques de colonnes.

La tâche de génération automatique de statistiques analyse 20 % des enregistrements des tables pour calculer les statistiques. La génération automatique de statistiques sur les colonnes garantit que le catalogue de données dispose des statistiques les plus récentes qui peuvent être utilisées par les moteurs de requête tels qu'Amazon Athena et Amazon Redshift Spectrum pour améliorer les performances des requêtes et réaliser des économies de coûts potentielles. Il permet de planifier la génération de statistiques à l'aide AWS Glue APIs de la console, fournissant ainsi un processus automatisé sans intervention manuelle.