Utilisation AWS Lake Formation avec Amazon EMR - AWS Lake Formation

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation AWS Lake Formation avec Amazon EMR

Amazon EMR est une plateforme de clusters AWS gérés flexible sur laquelle vous pouvez exécuter n'importe quel code personnalisé sur des frameworks de mégadonnées compatibles tels que Hadoop Map-Reduce, Spark, Hive, Presto, etc. Organisations utilisent également Amazon EMR pour exécuter des applications de traitement de données par lots et en flux sur un cluster hautement distribué. À l'aide d'Apache Spark sur AmazonEMR, vous pouvez exécuter vos transformations de données et votre code personnalisé sur une base de données et des tables dont les autorisations sont gérées par Lake Formation.

Il existe trois options pour déployer Amazon EMR :

  • EMRsur EC2

  • EMRSans serveur

  • Amazon EMR sur EKS

Pour plus d'informations, consultez Intégrer Amazon EMR à Lake Formation ou Utiliser EMR Serverless avec AWS Lake Formation pour un contrôle d'accès précis

Support pour les formats de tables transactionnels

Les EMR versions 6.15.0 et ultérieures d'Amazon incluent la prise en charge des autorisations de contrôle d'accès au niveau des tables, des lignes, des colonnes et des cellules Lake Formation sur les formats de table Apache Hudi, Apache Iceberg et Delta Lake lorsque vous lisez et écrivez des données avec Spark. SQL

Pour connaître les limites, consultez la section Considérations relatives EMR à Amazon with Lake Formation.

Formats de tableau pris en charge
Format de table Description et opérations autorisées Autorisations de Lake Formation prises en charge sur Amazon EMR

Apache Hudi

Format de table ouvert utilisé pour simplifier le traitement incrémentiel des données et le développement de pipelines de données.

Pour une liste des opérations prises en charge, consultez Apache Hudi et Lake Formation.

Amazon EMR prend en charge le contrôle d'accès au niveau des tables, des lignes, des colonnes et des cellules avec Apache Hudi.

Apache Iceberg

Format de tableau ouvert qui gère de grandes collections de fichiers sous forme de tableaux.

Pour une liste des opérations prises en charge, consultez Apache Iceberg et Lake Formation.

Amazon EMR prend en charge le contrôle d'accès au niveau des tables, des lignes, des colonnes et des cellules avec Apache Iceberg.

Linux Foundation Delta Lake

Delta Lake est un projet open source qui permet de mettre en œuvre des architectures de lacs de données modernes généralement basées sur Amazon S3 ou Hadoop Distributed File System (). HDFS

Pour une liste des opérations prises en charge, voir Delta Lake and Lake Formation.

Amazon EMR prend en charge le contrôle d'accès au niveau des tables, des lignes, des colonnes et des cellules avec les tables Delta Lake.

Ressources supplémentaires