Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation AWS Lake Formation avec AWS Glue
Les ingénieurs des données et DevOps les professionnels utilisent AWS Glue Extract, Transform and Load (ETL) avec Apache Spark pour transformer leurs ensembles de données dans Amazon S3 et charger les données transformées dans des lacs de données et des entrepôts de données à des fins d'analyse, d'apprentissage automatique et de développement d'applications. Différentes équipes accédant au même ensemble de données dans Amazon S3, il est impératif d'accorder et de restreindre les autorisations en fonction de leurs rôles.
AWS Lake Formation est basé sur AWS Glue, et les services interagissent de la manière suivante :
-
Lake Formation et AWS Glue partager le même catalogue de données.
-
Les fonctionnalités suivantes de la console Lake Formation invoquent le AWS Glue console :
-
Tâches — Pour plus d'informations, consultez la section Ajouter des tâches dans le Guide du AWS Glue développeur.
-
Crawlers — Pour plus d'informations, voir Catalogage de tables à l'aide d'un robot d'exploration dans le Guide du AWS Glue développeur.
-
-
Les flux de travail générés lorsque vous utilisez un plan de Lake Formation sont AWS Glue flux de travail. Vous pouvez consulter et gérer ces flux de travail à la fois dans la console Lake Formation et dans AWS Glue console.
-
Les transformations d'apprentissage automatique sont fournies avec Lake Formation et s'appuient sur AWS Glue Opérations d'API. Vous créez et gérez des transformations de machine learning sur AWS Glue console. Pour plus d'informations, consultez Machine Learning Transforms dans le Guide du AWS Glue développeur.
Vous pouvez utiliser le contrôle d'accès détaillé de Lake Formation pour gérer les ressources de votre catalogue de données existantes et les emplacements de données Amazon S3.
Note
AWS Glue La version 5.0 ou supérieure prend en charge des contrôles d'accès précis sur les tables Iceberg et Hive soutenues par S3. Cette fonctionnalité vous permet de configurer des contrôles d'accès au niveau des tables, des lignes, des colonnes et des cellules pour les requêtes de lecture dans vos AWS Glue tâches Apache Spark.
Support pour les types de tables transactionnels
L'application des autorisations Lake Formation vous permet de sécuriser vos données transactionnelles dans vos lacs de données basés sur Amazon S3. Le tableau ci-dessous répertorie les formats de tables transactionnels pris en charge dans les autorisations Lake Formation AWS Glue et les autorisations. Lake Formation applique ces autorisations pour les AWS Glue opérations.
Format de table | Description et opérations autorisées | Permissions de Lake Formation prises en charge dans AWS Glue |
---|---|---|
Apache Hudi |
Format de table ouvert utilisé pour simplifier le traitement incrémentiel des données et le développement de pipelines de données. Pour des exemples, voir Utilisation du framework Hudi dans AWS Glue. |
Des autorisations au niveau des tables sont disponibles pour les tables Hudi. Pour plus d’informations, consultez Limites. |
Apache Iceberg |
Format de tableau ouvert qui gère de grandes collections de fichiers sous forme de tableaux. Pour des exemples, voir Utilisation du framework Iceberg dans AWS Glue. |
AWS Glue la version 5.0 et supérieure vous permet de configurer des contrôles d'accès au niveau des tables, des lignes, des colonnes et des cellules pour les requêtes de lecture dans vos AWS Glue tâches Apache Spark pour les tables Iceberg. Pour plus d’informations, consultez Limites. |
Linux Foundation Delta Lake |
Delta Lake est un projet open source qui permet de mettre en œuvre des architectures de lacs de données modernes généralement basées sur Amazon S3 ou Hadoop Distributed File System (HDFS). Pour des exemples, voir Utilisation du framework Delta Lake dans AWS Glue. |
Des autorisations au niveau des tables sont disponibles pour les tables Delta Lake. Pour plus d’informations, consultez Limites. |
Ressources supplémentaires
Articles de blog et référentiels
-
Écrire dans des tables Apache Hudi à l'aide d'un connecteur AWS Glue personnalisé
-
AWS référentiel du modèle Cloudformation et d'un exemple de code pyspark
pour analyser les données de streaming à l'aide d' AWS Glue Apache Hudi et d'Amazon S3.