Support pour les types de tables transactionnels Ressources supplémentaires

Utilisation AWS Lake Formation avec AWS Glue

Les ingénieurs des données et DevOps les professionnels utilisent AWS Glue Extract, Transform and Load (ETL) avec Apache Spark pour transformer leurs ensembles de données dans Amazon S3 et charger les données transformées dans des lacs de données et des entrepôts de données à des fins d'analyse, d'apprentissage automatique et de développement d'applications. Différentes équipes accédant au même ensemble de données dans Amazon S3, il est impératif d'accorder et de restreindre les autorisations en fonction de leurs rôles.

AWS Lake Formation est basé sur AWS Glue, et les services interagissent de la manière suivante :

Lake Formation et AWS Glue partager le même catalogue de données.
Les fonctionnalités suivantes de la console Lake Formation invoquent le AWS Glue console :
- Tâches — Pour plus d'informations, consultez la section Ajouter des tâches dans le Guide du AWS Glue développeur.
- Crawlers — Pour plus d'informations, voir Catalogage de tables à l'aide d'un robot d'exploration dans le Guide du AWS Glue développeur.
Les flux de travail générés lorsque vous utilisez un plan de Lake Formation sont AWS Glue flux de travail. Vous pouvez consulter et gérer ces flux de travail à la fois dans la console Lake Formation et dans AWS Glue console.
Les transformations d'apprentissage automatique sont fournies avec Lake Formation et s'appuient sur AWS Glue Opérations d'API. Vous créez et gérez des transformations de machine learning sur AWS Glue console. Pour plus d'informations, consultez Machine Learning Transforms dans le Guide du AWS Glue développeur.

Vous pouvez utiliser le contrôle d'accès détaillé de Lake Formation pour gérer les ressources de votre catalogue de données existantes et les emplacements de données Amazon S3.

Note

AWS Glue La version 5.0 ou supérieure prend en charge des contrôles d'accès précis sur les tables Iceberg et Hive soutenues par S3. Cette fonctionnalité vous permet de configurer des contrôles d'accès au niveau des tables, des lignes, des colonnes et des cellules pour les requêtes de lecture dans vos AWS Glue tâches Apache Spark.

Support pour les types de tables transactionnels

L'application des autorisations Lake Formation vous permet de sécuriser vos données transactionnelles dans vos lacs de données basés sur Amazon S3. Le tableau ci-dessous répertorie les formats de tables transactionnels pris en charge dans les autorisations Lake Formation AWS Glue et les autorisations. Lake Formation applique ces autorisations pour les AWS Glue opérations.

Formats de tableau pris en charge
Format de table	Description et opérations autorisées	Permissions de Lake Formation prises en charge dans AWS Glue
Apache Hudi	Format de table ouvert utilisé pour simplifier le traitement incrémentiel des données et le développement de pipelines de données. Pour des exemples, voir Utilisation du framework Hudi dans AWS Glue.	Des autorisations au niveau des tables sont disponibles pour les tables Hudi. Pour plus d’informations, consultez Limites.
Apache Iceberg	Format de tableau ouvert qui gère de grandes collections de fichiers sous forme de tableaux. Pour des exemples, voir Utilisation du framework Iceberg dans AWS Glue.	AWS Glue la version 5.0 et supérieure vous permet de configurer des contrôles d'accès au niveau des tables, des lignes, des colonnes et des cellules pour les requêtes de lecture dans vos AWS Glue tâches Apache Spark pour les tables Iceberg. Pour plus d’informations, consultez Limites.
Linux Foundation Delta Lake	Delta Lake est un projet open source qui permet de mettre en œuvre des architectures de lacs de données modernes généralement basées sur Amazon S3 ou Hadoop Distributed File System (HDFS). Pour des exemples, voir Utilisation du framework Delta Lake dans AWS Glue.	Des autorisations au niveau des tables sont disponibles pour les tables Delta Lake. Pour plus d’informations, consultez Limites.

Ressources supplémentaires

Articles de blog et référentiels

Utilisez le AWS Glue connecteur pour lire et écrire des tables Apache Iceberg avec des transactions ACID et voyager dans le temps
Écrire dans des tables Apache Hudi à l'aide d'un connecteur AWS Glue personnalisé
AWS référentiel du modèle Cloudformation et d'un exemple de code pyspark pour analyser les données de streaming à l'aide d' AWS Glue Apache Hudi et d'Amazon S3.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Amazon Redshift Spectrum

Amazon EMR