Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Activation de l'optimiseur de conservation des instantanés

Mode de mise au point
Activation de l'optimiseur de conservation des instantanés - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Vous pouvez utiliser AWS Glue la console ou l' AWS API pour activer les optimiseurs de rétention des instantanés pour vos tables Apache Iceberg dans le catalogue de données. AWS CLI Pour les nouvelles tables, vous pouvez choisir Apache Iceberg comme format de table et activer l'optimiseur de conservation des instantanés lorsque vous créez la table. La conservation des instantanés est désactivée par défaut pour les nouvelles tables.

Console
Pour activer l'optimiseur de rétention des instantanés
  1. Ouvrez la AWS Glue console https://console.aws.amazon.com/glue/et connectez-vous en tant qu'administrateur du lac de données, créateur de table ou utilisateur ayant obtenu les lakeformation:GetDataAccess autorisations glue:UpdateTable et sur la table.

  2. Dans le panneau de navigation, sous Catalogue de données, choisissez Tables.

  3. Sur la page Tables, choisissez une table Iceberg pour laquelle vous souhaitez activer l'optimiseur de conservation des instantanés, puis dans le menu Actions, choisissez Activer sous Optimisation.

    Vous pouvez également activer l'optimisation en sélectionnant le tableau et en ouvrant la page des détails du tableau. Choisissez l'onglet Optimisation des tables dans la partie inférieure de la page, puis sélectionnez Activer la conservation des instantanés.

  4. Sur la page Activer l'optimisation, sous Configuration de l'optimisation, vous avez deux options : Utiliser les paramètres par défaut ou Personnaliser les paramètres. Si vous choisissez d'utiliser les paramètres par défaut, AWS Glue utilise les propriétés définies dans la configuration de la table Iceberg pour déterminer la période de conservation des instantanés et le nombre de clichés à conserver. En l'absence de cette configuration, AWS Glue conserve un instantané pendant cinq jours et supprime les fichiers associés aux instantanés expirés.

  5. Ensuite, choisissez un rôle IAM qui AWS Glue peut assumer en votre nom le rôle d'exécution de l'optimiseur. Pour plus de détails sur les autorisations requises pour le rôle IAM, consultez la Conditions préalables requises pour l'optimisation des tables section.

    Suivez les étapes ci-dessous pour mettre à jour un rôle IAM existant :

    1. Pour mettre à jour la stratégie d'autorisation pour le rôle IAM, dans la console IAM, accédez au rôle IAM utilisé pour exécuter le compactage.

    2. Dans la section Ajouter des autorisations, choisissez Créer une stratégie. Dans la fenêtre du navigateur nouvellement ouverte, créez une nouvelle stratégie à utiliser avec votre rôle.

    3. Sur la page Créer une politique, choisissez l'onglet JSON. Copiez le code JSON affiché dans les conditions préalables dans le champ de l'éditeur de politiques.

  6. Si vous préférez définir les valeurs de la configuration de conservation des instantanés manuellement, choisissez Personnaliser les paramètres.

    Page de détails de la table Apache Iceberg avec l'option Activer la rétention > Personnaliser les paramètres.
  7. Cochez la case Appliquer le rôle IAM sélectionné aux optimiseurs sélectionnés pour utiliser un seul rôle IAM pour tous en activant tous les optimiseurs.

  8. Si vous avez des configurations de politique de sécurité dans lesquelles l'optimiseur de table Iceberg doit accéder aux compartiments Amazon S3 à partir d'un Virtual Private Cloud (VPC) spécifique, créez AWS Glue une connexion réseau ou utilisez une connexion réseau existante.

    Si aucune connexion AWS Glue VPC n'est déjà configurée, créez-en une nouvelle en suivant les étapes de la section Création de connexions pour les connecteurs à l'aide de la AWS Glue console ou du /SDK. AWS CLI

  9. Ensuite, sous Configuration de conservation des instantanés, choisissez d'utiliser les valeurs spécifiées dans la configuration de la table Iceberg ou de spécifier des valeurs personnalisées pour la période de conservation des instantanés (history.expire). max-snapshot-age-ms) et le nombre minimum de clichés (history.expire. min-snapshots-to-keep) à conserver.

  10. Choisissez Supprimer les fichiers associés pour supprimer les fichiers sous-jacents lorsque l'optimiseur de table supprime les anciens instantanés des métadonnées de la table.

    Si vous ne choisissez pas cette option, lorsque les anciens instantanés sont supprimés des métadonnées de la table, les fichiers associés resteront dans le stockage en tant que fichiers orphelins.

  11. Ensuite, lisez la mise en garde, puis choisissez Je confirme pour continuer.

    Note

    Dans le catalogue de données, l'optimiseur de rétention des instantanés respecte le cycle de vie contrôlé par les politiques de conservation au niveau des succursales et des balises. Pour plus d'informations, consultez la section Branchement et balisage de la documentation d'Iceberg.

  12. Passez en revue la configuration et choisissez Activer l'optimisation.

    Attendez quelques minutes que l'optimiseur de rétention s'exécute et que les anciens instantanés expirent en fonction de la configuration.

AWS CLI

Pour activer la conservation des instantanés pour les nouvelles tables Iceberg dans AWS Glue, vous devez créer un optimiseur de table de type retention et définir le enabled champ sur true dans le. table-optimizer-configuration Vous pouvez le faire à l'aide de la AWS CLI commande create-table-optimizer ouupdate-table-optimizer. En outre, vous devez spécifier les champs de configuration de rétention tels que snapshotRetentionPeriodInDays et numberOfSnapshotsToRetain en fonction de vos besoins.

L'exemple suivant montre comment activer l'optimiseur de rétention des instantanés. Remplacez l'identifiant de compte par un identifiant de AWS compte valide. Remplacez le nom de la base de données et le nom de la table par un nom réel de la table Iceberg et le nom de la base de données. Remplacez le roleArn par le nom de AWS ressource (ARN) du rôle IAM et le nom du rôle IAM disposant des autorisations requises pour exécuter l'optimiseur de rétention des instantanés.

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":'true', "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"}, "retentionConfiguration":{"icebergConfiguration":{"snapshotRetentionPeriodInDays":7,"numberOfSnapshotsToRetain":3,"cleanExpiredFiles":'true'}}}'\ --type retention

Cette commande crée un optimiseur de rétention pour la table Iceberg spécifiée dans le catalogue, la base de données et la région donnés. table-optimizer-configurationSpécifie l'ARN du rôle IAM à utiliser, active l'optimiseur et définit la configuration de rétention. Dans cet exemple, il conserve les instantanés pendant 7 jours, conserve au moins 3 instantanés et nettoie les fichiers expirés.

  • snapshotRetentionPeriodInDays : le nombre de jours pendant lesquels les instantanés sont conservés avant leur expiration. La valeur par défaut est 5.

  • numberOfSnapshotsToRetain — Le nombre minimum de clichés à conserver, même s'ils sont antérieurs à la période de conservation. La valeur par défaut est 1.

  • cleanExpiredFiles — Un booléen indiquant s'il faut supprimer les fichiers de données expirés après l'expiration des instantanés. La valeur par défaut est true.

    Lorsque ce paramètre est défini sur true, les anciens instantanés sont supprimés des métadonnées de la table et leurs fichiers sous-jacents sont supprimés. Si ce paramètre est défini sur false, les anciens instantanés sont supprimés des métadonnées de la table, mais leurs fichiers sous-jacents restent dans le stockage en tant que fichiers orphelins.

AWS API

CreateTableOptimizerOpération d'appel pour activer l'optimiseur de rétention des instantanés pour une table.

Pour activer l'optimiseur de rétention des instantanés
  1. Ouvrez la AWS Glue console https://console.aws.amazon.com/glue/et connectez-vous en tant qu'administrateur du lac de données, créateur de table ou utilisateur ayant obtenu les lakeformation:GetDataAccess autorisations glue:UpdateTable et sur la table.

  2. Dans le panneau de navigation, sous Catalogue de données, choisissez Tables.

  3. Sur la page Tables, choisissez une table Iceberg pour laquelle vous souhaitez activer l'optimiseur de conservation des instantanés, puis dans le menu Actions, choisissez Activer sous Optimisation.

    Vous pouvez également activer l'optimisation en sélectionnant le tableau et en ouvrant la page des détails du tableau. Choisissez l'onglet Optimisation des tables dans la partie inférieure de la page, puis sélectionnez Activer la conservation des instantanés.

  4. Sur la page Activer l'optimisation, sous Configuration de l'optimisation, vous avez deux options : Utiliser les paramètres par défaut ou Personnaliser les paramètres. Si vous choisissez d'utiliser les paramètres par défaut, AWS Glue utilise les propriétés définies dans la configuration de la table Iceberg pour déterminer la période de conservation des instantanés et le nombre de clichés à conserver. En l'absence de cette configuration, AWS Glue conserve un instantané pendant cinq jours et supprime les fichiers associés aux instantanés expirés.

  5. Ensuite, choisissez un rôle IAM qui AWS Glue peut assumer en votre nom le rôle d'exécution de l'optimiseur. Pour plus de détails sur les autorisations requises pour le rôle IAM, consultez la Conditions préalables requises pour l'optimisation des tables section.

    Suivez les étapes ci-dessous pour mettre à jour un rôle IAM existant :

    1. Pour mettre à jour la stratégie d'autorisation pour le rôle IAM, dans la console IAM, accédez au rôle IAM utilisé pour exécuter le compactage.

    2. Dans la section Ajouter des autorisations, choisissez Créer une stratégie. Dans la fenêtre du navigateur nouvellement ouverte, créez une nouvelle stratégie à utiliser avec votre rôle.

    3. Sur la page Créer une politique, choisissez l'onglet JSON. Copiez le code JSON affiché dans les conditions préalables dans le champ de l'éditeur de politiques.

  6. Si vous préférez définir les valeurs de la configuration de conservation des instantanés manuellement, choisissez Personnaliser les paramètres.

    Page de détails de la table Apache Iceberg avec l'option Activer la rétention > Personnaliser les paramètres.
  7. Cochez la case Appliquer le rôle IAM sélectionné aux optimiseurs sélectionnés pour utiliser un seul rôle IAM pour tous en activant tous les optimiseurs.

  8. Si vous avez des configurations de politique de sécurité dans lesquelles l'optimiseur de table Iceberg doit accéder aux compartiments Amazon S3 à partir d'un Virtual Private Cloud (VPC) spécifique, créez AWS Glue une connexion réseau ou utilisez une connexion réseau existante.

    Si aucune connexion AWS Glue VPC n'est déjà configurée, créez-en une nouvelle en suivant les étapes de la section Création de connexions pour les connecteurs à l'aide de la AWS Glue console ou du /SDK. AWS CLI

  9. Ensuite, sous Configuration de conservation des instantanés, choisissez d'utiliser les valeurs spécifiées dans la configuration de la table Iceberg ou de spécifier des valeurs personnalisées pour la période de conservation des instantanés (history.expire). max-snapshot-age-ms) et le nombre minimum de clichés (history.expire. min-snapshots-to-keep) à conserver.

  10. Choisissez Supprimer les fichiers associés pour supprimer les fichiers sous-jacents lorsque l'optimiseur de table supprime les anciens instantanés des métadonnées de la table.

    Si vous ne choisissez pas cette option, lorsque les anciens instantanés sont supprimés des métadonnées de la table, les fichiers associés resteront dans le stockage en tant que fichiers orphelins.

  11. Ensuite, lisez la mise en garde, puis choisissez Je confirme pour continuer.

    Note

    Dans le catalogue de données, l'optimiseur de rétention des instantanés respecte le cycle de vie contrôlé par les politiques de conservation au niveau des succursales et des balises. Pour plus d'informations, consultez la section Branchement et balisage de la documentation d'Iceberg.

  12. Passez en revue la configuration et choisissez Activer l'optimisation.

    Attendez quelques minutes que l'optimiseur de rétention s'exécute et que les anciens instantanés expirent en fonction de la configuration.

Après avoir activé le compactage, l'onglet Optimisation des tables affiche les détails de compactage suivants (après environ 15 à 20 minutes) :

L’heure de début

Heure à laquelle l'optimiseur de rétention des instantanés a démarré. La valeur est un horodatage selon le fuseau UTC.

Durée de l'exécution

Le temps indique le temps nécessaire à l'optimiseur pour terminer la tâche. La valeur est un horodatage selon le fuseau UTC.

Statut

État de l'exécution de l'optimiseur. Les valeurs sont la réussite ou l'échec.

Fichiers de données supprimés

Nombre total de fichiers supprimés.

Fichiers manifestes supprimés

Nombre total de fichiers manifestes supprimés.

Listes de manifestes supprimées

Nombre total de listes de manifestes supprimées.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.