Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Vous pouvez utiliser AWS Glue la console ou l' AWS API pour activer les optimiseurs de rétention des instantanés pour vos tables Apache Iceberg dans le catalogue de données. AWS CLI Pour les nouvelles tables, vous pouvez choisir Apache Iceberg comme format de table et activer l'optimiseur de conservation des instantanés lorsque vous créez la table. La conservation des instantanés est désactivée par défaut pour les nouvelles tables.
Pour activer l'optimiseur de rétention des instantanés
-
Ouvrez la AWS Glue console https://console.aws.amazon.com/glue/
et connectez-vous en tant qu'administrateur du lac de données, créateur de table ou utilisateur ayant obtenu les lakeformation:GetDataAccess
autorisationsglue:UpdateTable
et sur la table. -
Dans le panneau de navigation, sous Catalogue de données, choisissez Tables.
Sur la page Tables, choisissez une table Iceberg pour laquelle vous souhaitez activer l'optimiseur de conservation des instantanés, puis dans le menu Actions, choisissez Activer sous Optimisation.
Vous pouvez également activer l'optimisation en sélectionnant le tableau et en ouvrant la page des détails du tableau. Choisissez l'onglet Optimisation des tables dans la partie inférieure de la page, puis sélectionnez Activer la conservation des instantanés.
-
Sur la page Activer l'optimisation, sous Configuration de l'optimisation, vous avez deux options : Utiliser les paramètres par défaut ou Personnaliser les paramètres. Si vous choisissez d'utiliser les paramètres par défaut, AWS Glue utilise les propriétés définies dans la configuration de la table Iceberg pour déterminer la période de conservation des instantanés et le nombre de clichés à conserver. En l'absence de cette configuration, AWS Glue conserve un instantané pendant cinq jours et supprime les fichiers associés aux instantanés expirés.
-
Ensuite, choisissez un rôle IAM qui AWS Glue peut assumer en votre nom le rôle d'exécution de l'optimiseur. Pour plus de détails sur les autorisations requises pour le rôle IAM, consultez la Conditions préalables requises pour l'optimisation des tables section.
Suivez les étapes ci-dessous pour mettre à jour un rôle IAM existant :
-
Pour mettre à jour la stratégie d'autorisation pour le rôle IAM, dans la console IAM, accédez au rôle IAM utilisé pour exécuter le compactage.
-
Dans la section Ajouter des autorisations, choisissez Créer une stratégie. Dans la fenêtre du navigateur nouvellement ouverte, créez une nouvelle stratégie à utiliser avec votre rôle.
Sur la page Créer une politique, choisissez l'onglet JSON. Copiez le code JSON affiché dans les conditions préalables dans le champ de l'éditeur de politiques.
-
-
Si vous préférez définir les valeurs de la configuration de conservation des instantanés manuellement, choisissez Personnaliser les paramètres.
-
Cochez la case Appliquer le rôle IAM sélectionné aux optimiseurs sélectionnés pour utiliser un seul rôle IAM pour tous en activant tous les optimiseurs.
-
Si vous avez des configurations de politique de sécurité dans lesquelles l'optimiseur de table Iceberg doit accéder aux compartiments Amazon S3 à partir d'un Virtual Private Cloud (VPC) spécifique, créez AWS Glue une connexion réseau ou utilisez une connexion réseau existante.
Si aucune connexion AWS Glue VPC n'est déjà configurée, créez-en une nouvelle en suivant les étapes de la section Création de connexions pour les connecteurs à l'aide de la AWS Glue console ou du /SDK. AWS CLI
Ensuite, sous Configuration de conservation des instantanés, choisissez d'utiliser les valeurs spécifiées dans la configuration de la table Iceberg
ou de spécifier des valeurs personnalisées pour la période de conservation des instantanés (history.expire). max-snapshot-age-ms) et le nombre minimum de clichés (history.expire. min-snapshots-to-keep) à conserver. -
Choisissez Supprimer les fichiers associés pour supprimer les fichiers sous-jacents lorsque l'optimiseur de table supprime les anciens instantanés des métadonnées de la table.
Si vous ne choisissez pas cette option, lorsque les anciens instantanés sont supprimés des métadonnées de la table, les fichiers associés resteront dans le stockage en tant que fichiers orphelins.
-
Ensuite, lisez la mise en garde, puis choisissez Je confirme pour continuer.
Note
Dans le catalogue de données, l'optimiseur de rétention des instantanés respecte le cycle de vie contrôlé par les politiques de conservation au niveau des succursales et des balises. Pour plus d'informations, consultez la section Branchement et balisage
de la documentation d'Iceberg. -
Passez en revue la configuration et choisissez Activer l'optimisation.
Attendez quelques minutes que l'optimiseur de rétention s'exécute et que les anciens instantanés expirent en fonction de la configuration.
Après avoir activé le compactage, l'onglet Optimisation des tables affiche les détails de compactage suivants (après environ 15 à 20 minutes) :
- L’heure de début
-
Heure à laquelle l'optimiseur de rétention des instantanés a démarré. La valeur est un horodatage selon le fuseau UTC.
- Durée de l'exécution
-
Le temps indique le temps nécessaire à l'optimiseur pour terminer la tâche. La valeur est un horodatage selon le fuseau UTC.
- Statut
-
État de l'exécution de l'optimiseur. Les valeurs sont la réussite ou l'échec.
- Fichiers de données supprimés
Nombre total de fichiers supprimés.
- Fichiers manifestes supprimés
-
Nombre total de fichiers manifestes supprimés.
- Listes de manifestes supprimées
-
Nombre total de listes de manifestes supprimées.