Utilisation AWS Lake Formation avec AWS Glue - AWS Lake Formation

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation AWS Lake Formation avec AWS Glue

Les ingénieurs des données et DevOps les professionnels utilisent AWS Glue Extract, Transform and Load (ETL) avec Apache Spark pour transformer leurs ensembles de données dans Amazon S3 et charger les données transformées dans des lacs de données et des entrepôts de données à des fins d'analyse, d'apprentissage automatique et de développement d'applications. Différentes équipes accédant au même ensemble de données dans Amazon S3, il est impératif d'accorder et de restreindre les autorisations en fonction de leurs rôles.

AWS Lake Formation est basé sur AWS Glue, et les services interagissent de la manière suivante :

  • Lake Formation et AWS Glue partagent le même catalogue de données.

  • Les fonctionnalités suivantes de la console Lake Formation invoquent le AWS Glue console :

  • Les flux de travail générés lorsque vous utilisez un plan de Lake Formation sont AWS Glue flux de travail. Vous pouvez consulter et gérer ces flux de travail à la fois dans la console Lake Formation et dans AWS Glue console.

  • Les transformations d'apprentissage automatique sont fournies avec Lake Formation et s'appuient sur AWS Glue APIopérations. Vous créez et gérez des transformations de machine learning sur AWS Glue console. Pour plus d'informations, consultez Machine Learning Transforms dans le Guide du AWS Glue développeur.

Vous pouvez utiliser le contrôle d'accès détaillé de Lake Formation pour gérer les ressources de votre catalogue de données existantes et les emplacements de données Amazon S3.

Note

AWS Glue ETLnécessite un accès complet à l'intégralité de la table lors de la récupération des données depuis l'emplacement Amazon S3 sous-jacent. AWS Glue ETLla tâche échoue si vous appliquez des autorisations au niveau des colonnes sur une table.

Support pour les types de tables transactionnels

L'application des autorisations Lake Formation vous permet de sécuriser vos données transactionnelles dans vos lacs de données basés sur Amazon S3. Le tableau ci-dessous répertorie les formats de tables transactionnels pris en charge dans les autorisations Lake Formation AWS Glue et les autorisations associées. Lake Formation applique ces autorisations pour les AWS Glue opérations.

Formats de tableau pris en charge
Format de table Description et opérations autorisées Permissions de Lake Formation prises en charge dans AWS Glue

Apache Hudi

Format de table ouvert utilisé pour simplifier le traitement incrémentiel des données et le développement de pipelines de données.

Pour des exemples, voir Utilisation du framework Hudi dans AWS Glue.

Des autorisations au niveau des tables sont disponibles pour les tables Hudi.

Pour plus d’informations, consultez Limites.

Apache Iceberg

Format de tableau ouvert qui gère de grandes collections de fichiers sous forme de tableaux.

Pour des exemples, voir Utilisation du framework Iceberg dans AWS Glue.

Des autorisations au niveau des tables sont disponibles pour les tables Iceberg.

Pour plus d’informations, consultez Limites.

Linux Foundation Delta Lake

Delta Lake est un projet open source qui permet de mettre en œuvre des architectures de lacs de données modernes généralement basées sur Amazon S3 ou Hadoop Distributed File System (). HDFS

Pour des exemples, voir Utilisation du framework Delta Lake dans AWS Glue.

Des autorisations au niveau des tables sont disponibles pour les tables Delta Lake.

Pour plus d’informations, consultez Limites.

Ressources supplémentaires