Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Amazon S3 Metadata accélère la découverte des données en capturant automatiquement les métadonnées des objets de vos compartiments à usage général et en les stockant en lecture seule et entièrement gérées Apache Iceberg tables que vous pouvez interroger. Ces tables en lecture seule sont appelées tables de métadonnées. Lorsque des objets sont ajoutés, mis à jour ou supprimés dans vos compartiments à usage général, les métadonnées S3 actualisent automatiquement les tables de métadonnées correspondantes pour refléter les dernières modifications.
Par défaut, les métadonnées S3 fournissent trois types de métadonnées :
-
Métadonnées définies par le système, telles que l’heure de création et la classe de stockage d’un objet
-
Métadonnées personnalisées, telles que les balises et les métadonnées définies par l’utilisateur qui ont été incluses lors du chargement de l’objet
-
Les métadonnées des événements, par exemple lorsqu'un objet est mis à jour ou supprimé, et Compte AWS l'auteur de la demande
Pour plus d’informations sur les données stockées dans les tables de métadonnées, consultez Schéma des tables de métadonnées S3.
Avec les métadonnées S3, vous pouvez facilement rechercher, stocker et interroger les métadonnées de vos objets S3, afin de préparer rapidement les données à utiliser dans l’analytique métier, l’extraction de contenu, l’entraînement des modèles d’intelligence artificielle et de machine learning (IA/ML), etc.
Les tables de métadonnées sont stockées dans des compartiments de tables S3, qui fournissent un stockage optimisé pour les données tabulaires. Pour interroger facilement vos métadonnées, vous pouvez intégrer votre compartiment de table à AWS Glue Data Catalog. Une fois votre compartiment de tables intégré AWS Glue Data Catalog, vous pouvez directement interroger vos tables de métadonnées à l'aide de moteurs de requête tels qu'Amazon Athena, Amazon EMR, Amazon Redshift, Apache Spark, et Apache Trino. Vous pouvez également interroger vos tables de métadonnées à l'aide de n'importe quelle autre application compatible avec Apache Iceberg . Pour créer des tableaux de bord à partir de vos tables de métadonnées, utilisez Amazon QuickSight.
Pour en savoir plus sur la tarification des métadonnées S3, consultez Tarification Amazon S3
Fonctionnement des tables de métadonnées
Les tables de métadonnées sont gérées par Amazon S3 et ne peuvent être modifiées par aucun principal IAM en dehors d’Amazon S3 lui-même. Notez que vous pouvez toutefois supprimer vos tables de métadonnées. Par conséquent, les tables de métadonnées sont en lecture seule, ce qui permet de garantir qu’elles reflètent correctement le contenu de votre compartiment.
Pour conserver votre Apache Iceberg les tables de métadonnées fonctionnent au mieux. Amazon S3 effectue des activités de maintenance périodiques sur vos tables, telles que le compactage et la suppression de fichiers non référencés. Ces activités de maintenance permettent à la fois de minimiser le coût de stockage de vos tables de métadonnées et d’optimiser les performances des requêtes. Cette maintenance des tables se fait automatiquement. Elle ne nécessite aucune activation ni aucune gestion continue de votre part. Toutefois, si nécessaire, vous pouvez configurer ces activités de maintenance des tables. Pour plus d’informations, consultez Maintenance des compartiments de tables.
Note
Les métadonnées S3 sont conçues pour compléter en permanence la table de métadonnées lorsque vous apportez des modifications à votre compartiment à usage général. Chaque mise à jour crée un instantané, c’est-à-dire une nouvelle version de la table de métadonnées. Comme la table de métadonnées est en lecture seule, vous ne pouvez supprimer aucun enregistrement. Vous ne pouvez pas non plus utiliser la fonctionnalité d’expiration des instantanés des tables S3 pour faire expirer les anciens instantanés de votre table de métadonnées.
Pour réduire les coûts, vous pouvez régulièrement supprimer la configuration de vos tables de métadonnées ainsi que vos tables de métadonnées, puis les recréer. Pour plus d’informations, consultez Suppression de configurations de tables de métadonnées et Suppression des tables de métadonnées.
Pour générer et stocker des métadonnées d’objets dans une table de métadonnées gérée par S3, vous devez créer une configuration de table de métadonnées pour votre compartiment à usage général. Amazon S3 est conçu pour mettre à jour en permanence la table des métadonnées afin de refléter les dernières modifications apportées à vos données tant que la configuration est active au niveau du compartiment.
Pour créer une configuration de table de métadonnées, vous devez vous assurer que vous disposez des autorisations AWS Identity and Access Management (IAM) nécessaires pour créer et gérer des tables de métadonnées. Pour de plus amples informations, veuillez consulter Définition des autorisations pour la configuration des tables de métadonnées. Vous devez également créer ou spécifier un compartiment de table S3 dans lequel stocker la table de métadonnées. Ce compartiment de table doit se trouver dans le même Région AWS compte que votre compartiment à usage général. Pour plus d’informations, consultez Création de compartiments de tables.
Note
Les métadonnées S3 ne s’appliquent à aucun objet qui existait déjà dans votre compartiment à usage général avant que vous ne créiez la configuration de votre table de métadonnées. En d’autres termes, les métadonnées S3 capturent uniquement les métadonnées pour les événements de modification (tels que les chargements, les mises à jour et les suppressions) qui se produisent une fois que vous avez créé la configuration de votre table de métadonnées.
Pour surveiller les mises à jour apportées à la configuration de votre table de métadonnées, vous pouvez utiliser AWS CloudTrail. Pour de plus amples informations, veuillez consulter Actions au niveau du compartiment Amazon S3 suivies par journalisation CloudTrail .