Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Activation de la suppression des fichiers orphelins
Vous pouvez utiliser AWS Glue la console ou l' AWS API pour activer la suppression des fichiers orphelins pour vos tables Apache Iceberg dans le catalogue de données. AWS CLI Pour les nouvelles tables, vous pouvez choisir Apache Iceberg comme format de table et activer l'optimiseur de suppression des fichiers orphelins lorsque vous créez la table. La conservation des instantanés est désactivée par défaut pour les nouvelles tables.
- Console
-
Pour activer la suppression des fichiers orphelins
-
Ouvrez la AWS Glue console https://console.aws.amazon.com/glue/
et connectez-vous en tant qu'administrateur du lac de données, créateur de table ou utilisateur ayant obtenu les lakeformation:GetDataAccess
autorisationsglue:UpdateTable
et sur la table. -
Dans le panneau de navigation, sous Catalogue de données, choisissez Tables.
Sur la page Tables, choisissez une table Iceberg dans laquelle vous souhaitez activer la suppression des fichiers orphelins.
Choisissez l'onglet Optimisation des tables dans la partie inférieure de la page, puis sélectionnez Activer, suppression des fichiers orphelins dans Actions.
Vous pouvez également sélectionner Activer sous Optimisation dans le menu Actions situé dans le coin supérieur droit de la page.
-
Sur la page Activer l'optimisation, sélectionnez Suppression des fichiers orphelins sous Options d'optimisation.
-
Si vous choisissez d'utiliser les paramètres par défaut, tous les fichiers orphelins seront supprimés au bout de 3 jours. Si vous souhaitez conserver les fichiers orphelins pendant un certain nombre de jours, choisissez Personnaliser les paramètres.
-
Choisissez ensuite un rôle IAM doté des autorisations requises pour supprimer les fichiers orphelins.
-
Si vous avez des configurations de politique de sécurité dans lesquelles l'optimiseur de table Iceberg doit accéder aux compartiments Amazon S3 à partir d'un Virtual Private Cloud (VPC) spécifique, créez AWS Glue une connexion réseau ou utilisez une connexion réseau existante.
Si aucune connexion AWS Glue VPC n'est déjà configurée, créez-en une nouvelle en suivant les étapes de la section Création de connexions pour les connecteurs à l'aide de la AWS Glue console ou du /SDK. AWS CLI
-
Si vous choisissez Personnaliser les paramètres, entrez le nombre de jours pendant lesquels les fichiers doivent être conservés avant leur suppression dans Configuration de la suppression des fichiers orphelins.
-
Choisissez Activer l'optimisation.
-
- AWS CLI
-
Pour activer la suppression des fichiers orphelins pour une table Iceberg dans AWS Glue, vous devez créer un optimiseur de table de type
orphan_file_deletion
et définir leenabled
champ sur true. Pour créer un optimiseur de suppression de fichiers orphelins pour une table Iceberg à l'aide de AWS CLI, vous pouvez utiliser la commande suivante :aws glue create-table-optimizer \ --catalog-id
123456789012
\ --database-nameiceberg_db
\ --table-nameiceberg_table
\ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"
}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3
, "location":'S3 location
'}}}'\ --type orphan_file_deletionCette commande crée un optimiseur de suppression de fichiers orphelins pour la table Iceberg spécifiée. Les principaux paramètres sont les suivants :
-
roLearn : l'ARN du rôle IAM autorisé à accéder au compartiment S3 et aux ressources Glue.
-
activé — Définissez ce paramètre sur true pour activer l'optimiseur.
-
orphanFileRetentionPeriodInDays — Le nombre de jours pendant lesquels les fichiers orphelins sont conservés avant de les supprimer (minimum 1 jour).
-
type — Définissez la valeur orphan_file_delete pour créer un optimiseur de suppression de fichiers orphelins.
Après avoir créé l'optimiseur de table, il supprimera régulièrement les fichiers orphelins (une fois par jour s'il est laissé activé). Vous pouvez vérifier les exécutions à l'aide de l'
list-table-optimizer-runs
API. La tâche de suppression des fichiers orphelins identifiera et supprimera les fichiers qui ne sont pas suivis dans les métadonnées Iceberg de la table. -
- API
-
CreateTableOptimizerOpération d'appel pour créer l'optimiseur de suppression de fichiers orphelins pour une table spécifique.