Considérations et restrictions - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Considérations et restrictions

Cette section inclut les éléments à prendre en compte lors de l'utilisation d'optimiseurs de table dans le AWS Glue Data Catalog.

Formats pris en charge et limites pour le compactage géré des données

Le compactage des données prend en charge divers types de données et formats de compression pour la lecture et l'écriture de données, y compris la lecture de données à partir de tables chiffrées.

Le compactage des données prend en charge :

  • Types de fichiers — Parquet

  • Types de données : booléen, entier, long, flottant, double, chaîne, décimal, date, heure, horodatage, chaîne, binaire UUID

  • Compression : zstd, gzip, snappy, non compressé

  • Chiffrement : le compactage des données prend uniquement en charge le chiffrement Amazon S3 (SSE-S3) et le KMS chiffrement côté serveur (-). SSE KMS

  • Compactage par regroupement

  • Évolution du schéma

  • Tableaux avec taille de fichier cible (écriture). target-file-size-bytes propriété (en configuration iceberg) jusqu'à 64 Mo

  • Vous pouvez exécuter le compactage depuis le compte où réside le catalogue de données lorsque le compartiment Amazon S3 qui stocke les données sous-jacentes se trouve dans un autre compte. Pour ce faire, le rôle de compactage nécessite l’accès au compartiment Amazon S3.

Le compactage des données ne prend pas en charge actuellement :

  • Types de fichiers — Avro, ORC

  • Types de données — Fixes

  • Compression — brotli, lz4

  • Compactage des fichiers pendant que la spécification de partition évolue.

  • Tri régulier ou tri par ordre Z

  • Fusionner ou supprimer des fichiers : le processus de compactage ignore les fichiers de données auxquels des fichiers de suppression sont associés.

  • Compactage sur des tables entre comptes : vous ne pouvez pas exécuter le compactage sur des tables entre comptes.

  • Compactage sur des tables entre régions : vous ne pouvez pas exécuter le compactage sur des tables entre régions.

  • Activation du compactage sur des liens de ressources

  • Gestionnaire de verrous DynamoDB : lorsque vous utilisez le compactage de données, aucune autre tâche de chargement de données ne doit être utilisée comme org.apache.iceberg.aws.dynamodb. lock-impl DynamoDbLockManager.

  • Tables dans la classe de stockage Amazon S3 Express One Zone : vous ne pouvez pas exécuter le compactage sur des tables Iceberg S3 Express One Zone.

Considérations relatives à la conservation des instantanés et aux optimiseurs de suppression de fichiers orphelins

Les considérations suivantes s'appliquent à la conservation des instantanés et aux optimiseurs de suppression des fichiers orphelins.

  • Les processus de conservation des instantanés et de suppression de fichiers orphelins ont une limite maximale de suppression de 1 000 000 de fichiers par exécution. Lorsque vous supprimez des instantanés expirés, si le nombre de fichiers éligibles à la suppression dépasse 1 000 000, tous les fichiers restants au-delà de ce seuil continueront d'exister dans le stockage de la table en tant que fichiers orphelins.

  • Les instantanés ne seront conservés par l'optimiseur de rétention des instantanés que lorsque les deux critères sont satisfaits : le nombre minimum de clichés à conserver et la période de conservation spécifiée.

  • L'optimiseur de rétention des instantanés supprime les métadonnées des instantanés expirés d'Apache Iceberg, empêchant ainsi les requêtes de voyager dans le temps pour les instantanés expirés et supprimant éventuellement les fichiers de données associés.

  • L'optimiseur de suppression de fichiers orphelins supprime les données orphelins et les fichiers de métadonnées qui ne sont plus référencés par les métadonnées Iceberg si leur date de création est antérieure à la période de rétention des fichiers orphelins à compter de l'exécution de l'optimiseur.

  • Apache Iceberg facilite le contrôle des versions par le biais de branches et de balises, appelées pointeurs vers des états de snapshots spécifiques. Chaque branche et étiquette suit son propre cycle de vie indépendant, régi par des politiques de rétention définies à leurs niveaux respectifs. Les AWS Glue Data Catalog optimiseurs tiennent compte de ces politiques de cycle de vie, garantissant ainsi le respect des règles de conservation spécifiées. Les politiques de rétention au niveau des succursales et des balises ont priorité sur les configurations de l'optimiseur.

    Pour plus d'informations, consultez Branchage et balisage dans la documentation Apache Iceberg.

  • Les optimiseurs de conservation des instantanés et de suppression de fichiers orphelins supprimeront les fichiers éligibles au nettoyage conformément aux paramètres configurés. Améliorez votre contrôle sur la suppression de fichiers en mettant en œuvre des politiques de gestion des versions et de cycle de vie S3 sur les compartiments appropriés.

    Pour obtenir des instructions détaillées sur la configuration de la gestion des versions et la création de règles de cycle de vie, consultezhttps://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html.