Optimisation du compactage

Les lacs de données Amazon S3 utilisant des formats de table ouverts tels qu'Apache Iceberg stockent les données sous forme d'objets S3. La présence de milliers de petits objets Amazon S3 dans une table de lac de données augmente la surcharge de métadonnées et affecte les performances de lecture. AWS Glue Data Catalog fournit un compactage géré pour les tables Iceberg, en compactant de petits objets en de plus grands objets pour améliorer les performances de lecture grâce à des services AWS d'analyse tels qu' Amazon Athena Amazon EMR et à des tâches ETL. AWS Glue Data Catalog effectue le compactage sans interférer avec les requêtes simultanées et prend en charge le compactage uniquement pour les tables au format Parquet.

L'optimiseur de table surveille en permanence les partitions des tables et lance le processus de compactage lorsque le seuil est dépassé pour le nombre de fichiers et leur taille.

Dans le catalogue de données, le processus de compactage démarre lorsqu'une table ou l'une de ses partitions contient plus de 100 fichiers. Chaque fichier doit être inférieur à 75 % de la taille du fichier cible. La taille du fichier cible est définie par la propriété write.target-file-size-bytes table, qui est par défaut de 512 Mo si elle n'est pas définie explicitement.

Pour connaître les limitations, veuillez consulter Formats pris en charge et limites pour le compactage géré des données .

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Prérequis

Activation de l'optimiseur de compactage