Considérations et restrictions - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Considérations et restrictions

Cette section inclut les éléments à prendre en compte lors de l'utilisation d'optimiseurs de table dans le AWS Glue Data Catalog.

Formats pris en charge et limites pour le compactage géré des données

Le compactage des données prend en charge une variété de types de données et de formats de compression pour la lecture et l'écriture de données, y compris la lecture de données à partir de tables chiffrées.

Le compactage des données prend en charge :

  • Types de fichiers — Parquet

  • Types de données : booléen, entier, long, flottant, double, chaîne, décimal, date, heure, horodatage, chaîne, binaire UUID

  • Compression : zstd, gzip, snappy, non compressé

  • Chiffrement : le compactage des données prend uniquement en charge le chiffrement par défaut d'Amazon SSE S3 (-S3) et le KMS chiffrement côté serveur (-). SSE KMS

  • Compactage par regroupement

  • Évolution du schéma

  • Tableaux avec taille de fichier cible (écriture). target-file-size-bytes propriété (en configuration iceberg) jusqu'à 64 Mo

  • Vous pouvez exécuter le compactage depuis le compte où réside le catalogue de données lorsque le compartiment Amazon S3 qui stocke les données sous-jacentes se trouve dans un autre compte. Pour ce faire, le rôle de compactage nécessite l’accès au compartiment Amazon S3.

Le compactage des données ne prend pas en charge actuellement :

  • Types de fichiers — Avro, ORC

  • Types de données : fixes

  • Compression — brotli, lz4

  • Compaction des fichiers au fur et à mesure que les spécifications de partition évoluent.

  • Tri régulier ou tri par ordre Z

  • Fusionner ou supprimer des fichiers : le processus de compactage ignore les fichiers de données auxquels sont associés des fichiers de suppression.

  • Compaction sur des tables multicomptes : vous ne pouvez pas exécuter de compactage sur des tables multicomptes.

  • Compaction sur des tables entre régions : vous ne pouvez pas exécuter de compactage sur des tables entre régions.

  • Activation du compactage sur des liens de ressources

  • VPCpoints de terminaison pour les compartiments Amazon S3

  • Gestionnaire de verrous DynamoDB : lorsque vous utilisez le compactage de données, aucune autre tâche de chargement de données ne doit être utilisée comme org.apache.iceberg.aws.dynamodb. lock-impl DynamoDbLockManager.

Considérations relatives à la conservation des instantanés et aux optimiseurs de suppression de fichiers orphelins

Les considérations suivantes s'appliquent à la conservation des instantanés et aux optimiseurs de suppression de fichiers orphelins.

  • Les processus de conservation des instantanés et de suppression de fichiers orphelins ont une limite maximale de suppression de 1 000 000 de fichiers par exécution. Lorsque vous supprimez des instantanés expirés, si le nombre de fichiers éligibles à la suppression dépasse 1 000 000, tous les fichiers restants au-delà de ce seuil continueront d'exister dans le stockage de la table en tant que fichiers orphelins.

  • Les instantanés sont conservés par l'optimiseur de rétention des instantanés uniquement lorsque les deux critères sont satisfaits : le nombre minimum de clichés à conserver et la période de conservation spécifiée.

  • L'optimiseur de rétention des instantanés supprime les métadonnées des instantanés expirés d'Apache Iceberg, empêchant ainsi les requêtes de voyager dans le temps pour les instantanés expirés et supprimant éventuellement les fichiers de données associés.

  • L'optimiseur de suppression de fichiers orphelins supprime les données orphelins et les fichiers de métadonnées qui ne sont plus référencés par les métadonnées Iceberg si leur date de création est antérieure à la période de rétention des fichiers orphelins à compter de l'exécution de l'optimiseur.

  • Apache Iceberg facilite le contrôle des versions par le biais de branches et de balises, appelées pointeurs vers des états de snapshots spécifiques. Chaque branche et étiquette suit son propre cycle de vie indépendant, régi par des politiques de rétention définies à leurs niveaux respectifs. Le AWS Glue Data Catalog les optimiseurs tiennent compte de ces politiques de cycle de vie, garantissant ainsi le respect des règles de conservation spécifiées. Les politiques de rétention au niveau des succursales et des balises ont priorité sur les configurations de l'optimiseur.

    Pour plus d'informations, consultez Branching and Tagging dans la documentation d'Apache Iceberg.

  • Les optimiseurs de conservation des instantanés et de suppression de fichiers orphelins supprimeront les fichiers éligibles au nettoyage conformément aux paramètres configurés. Améliorez votre contrôle sur la suppression de fichiers en mettant en œuvre des politiques de gestion des versions et de cycle de vie S3 sur les compartiments appropriés.

    Pour obtenir des instructions détaillées sur la configuration du versionnement et la création de règles de cycle de vie, consultezhttps://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html.