Optimisation des tables Iceberg - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Optimisation des tables Iceberg

AWS Glue prend en charge plusieurs options d'optimisation des tables afin d'améliorer la gestion et les performances des tables Apache Iceberg utilisées par AWS moteurs d'analyse et ETL emplois. Ces optimiseurs permettent d'utiliser efficacement le stockage, d'améliorer les performances des requêtes et de gérer efficacement les données. Il existe trois types d'optimiseurs de table disponibles dans AWS Glue:

  • Compaction : le compactage des données compacte les petits fichiers de données afin de réduire l'utilisation du stockage et d'améliorer les performances de lecture. Les fichiers de données sont fusionnés et réécrits pour supprimer les données obsolètes et consolider les données fragmentées dans des fichiers plus volumineux et plus efficaces. Le compactage peut être configuré pour s'exécuter automatiquement ou être déclenché manuellement selon les besoins.

  • Conservation des instantanés : les instantanés sont des versions horodatées d'une table Iceberg. Les configurations de conservation des instantanés permettent aux clients de définir la durée de conservation des instantanés et le nombre d'instantanés à conserver. La configuration d'un optimiseur de conservation des instantanés peut aider à gérer la charge de stockage en supprimant les anciens instantanés inutiles et leurs fichiers sous-jacents associés.

  • Suppression de fichiers orphelins — Les fichiers orphelins sont des fichiers qui ne sont plus référencés par les métadonnées de la table Iceberg. Ces fichiers peuvent s'accumuler au fil du temps, en particulier après des opérations telles que la suppression de tables ou l'échec de ETL tâches. L'activation de la suppression des fichiers orphelins permet AWS Glue pour identifier et supprimer périodiquement ces fichiers inutiles, libérant ainsi de l'espace de stockage.

Vous pouvez activer ou désactiver le compactage, la conservation des instantanés et les optimiseurs de suppression de fichiers orphelins pour les tables Iceberg individuelles du catalogue de données à l'aide du AWS Glue console, AWS CLI, ou AWS Glue APIopérations.