Qu'est-ce que c'est AWS Lake Formation ? - AWS Lake Formation

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Qu'est-ce que c'est AWS Lake Formation ?

Bienvenue dans le guide du AWS Lake Formation développeur.

AWS Lake Formation vous permet de gérer, de sécuriser et de partager les données de manière centralisée à l'échelle mondiale à des fins d'analyse et d'apprentissage automatique. Avec Lake Formation, vous pouvez gérer un contrôle d'accès précis pour les données de vos lacs de données sur Amazon Simple Storage Service (Amazon S3) et ses métadonnées dans. AWS Glue Data Catalog

Lake Formation fournit son propre modèle d'autorisations qui complète le modèle d'autorisations IAM. Le modèle d'autorisations de Lake Formation permet un accès précis aux données stockées dans des lacs de données par le biais d'un simple mécanisme d'autorisation ou de révocation, un peu comme un système de gestion de base de données relationnelle (RDBMS). Les autorisations de Lake Formation sont appliquées à l'aide de contrôles granulaires au niveau des colonnes, des lignes et des cellules dans les services d' AWS analyse et d'apprentissage automatique, notamment Amazon Athena, Amazon Redshift Spectrum, Amazon QuickSight Amazon EMR et. AWS Glue

Le mode d'accès hybride Lake Formation pour vous AWS Glue Data Catalog permet de sécuriser et d'accéder aux données cataloguées en utilisant à la fois les autorisations Lake Formation et les politiques d'autorisations IAM pour Amazon S3 et AWS Glue les actions. Grâce au mode d'accès hybride, les administrateurs de données peuvent intégrer les autorisations de Lake Formation de manière sélective et progressive, en se concentrant sur un cas d'utilisation de lac de données à la fois.

Lake Formation vous permet également de partager des données en interne et en externe entre plusieurs AWS organisations ou directement avec les responsables d'IAM sur un autre compte Comptes AWS, offrant ainsi un accès détaillé aux AWS Glue Data Catalog métadonnées et aux données sous-jacentes.

Caractéristiques de Lake Formation

Lake Formation vous aide à décloisonner les données et à combiner différents types de données structurées et non structurées dans un référentiel centralisé. Tout d'abord, identifiez les banques de données existantes dans Amazon S3 ou dans les bases de données relationnelles et NoSQL, puis déplacez les données vers votre lac de données. Ensuite, analysez, cataloguez et préparez les données à des fins d'analyse. Ensuite, offrez à vos utilisateurs un accès sécurisé en libre-service aux données grâce aux services d'analyse de leur choix.

Ingestion et gestion des données

Importer des données depuis des bases de données déjà présentes AWS

Une fois que vous avez indiqué où se trouvent vos bases de données existantes et que vous avez fourni vos identifiants d'accès, Lake Formation lit les données et leurs métadonnées (schéma) pour comprendre le contenu de la source de données. Il importe ensuite les données dans votre nouveau lac de données et enregistre les métadonnées dans un catalogue central. Avec Lake Formation, vous pouvez importer des données depuis des bases de données MySQL, PostgreSQL, SQL Server, MariaDB et Oracle exécutées sur Amazon RDS ou hébergées sur Amazon EC2. Le chargement de données en masse et incrémentiel est pris en charge.

Importer des données depuis d'autres sources externes

Vous pouvez utiliser Lake Formation pour déplacer des données depuis des bases de données locales en vous connectant à Java Database Connectivity (JDBC). Identifiez vos sources cibles et fournissez des informations d'accès dans la console. Lake Formation lit et charge vos données dans le lac de données. Pour importer des données à partir de bases de données autres que celles répertoriées ci-dessus, vous pouvez créer des tâches ETL personnalisées avec AWS Glue.

Cataloguez et étiquetez vos données

Vous pouvez utiliser des AWS Glue robots d'exploration pour lire vos données dans Amazon S3, extraire le schéma de base de données et de table et stocker ces données dans un outil de recherche AWS Glue Data Catalog. Utilisez ensuite Lake Formation Contrôle d'accès basé sur des balises Lake Formation (TBAC) pour gérer les autorisations sur les bases de données, les tables et les colonnes. Pour plus d'informations sur l'ajout de tables au catalogue de données, consultezCréation de tables et de bases de données du catalogue de données.

Gestion de la sécurité

Définissez et gérez les contrôles d'accès

Lake Formation fournit un endroit unique pour gérer les contrôles d'accès aux données de votre lac de données. Vous pouvez définir des politiques de sécurité qui limitent l'accès aux données au niveau de la base de données, de la table, de la colonne, de la ligne et de la cellule. Ces politiques s'appliquent aux utilisateurs et aux rôles IAM, ainsi qu'aux utilisateurs et aux groupes lors de la fédération via un fournisseur d'identité externe. Vous pouvez utiliser des contrôles précis pour accéder aux données sécurisées par Lake Formation dans Amazon Redshift Spectrum, Athena, ETL et Amazon EMR pour AWS Glue Apache Spark. Chaque fois que vous créez des identités IAM, veillez à suivre les meilleures pratiques IAM. Pour plus d'informations, consultez la section Bonnes pratiques en matière de sécurité dans le guide de l'utilisateur IAM.

Mode d'accès hybride

Le mode d'accès hybride Lake Formation offre la flexibilité nécessaire pour activer de manière sélective les autorisations Lake Formation pour les bases de données et les tables de votre AWS Glue Data Catalog. Avec le mode d'accès hybride, vous disposez désormais d'un chemin incrémentiel qui vous permet de définir les autorisations de Lake Formation pour un ensemble spécifique d'utilisateurs sans interrompre les politiques d'autorisation des autres utilisateurs ou charges de travail existants. Pour plus d’informations, consultez Mode d'accès hybride.

Mettre en œuvre l'enregistrement des audits

Lake Formation fournit des journaux d'audit complets CloudTrail pour surveiller l'accès et démontrer la conformité aux politiques définies de manière centralisée. Vous pouvez auditer l'historique des accès aux données par le biais de services d'analyse et d'apprentissage automatique qui lisent les données de votre lac de données via Lake Formation. Cela vous permet de voir quels utilisateurs ou quels rôles ont tenté d'accéder à quelles données, avec quels services et à quel moment. Vous pouvez accéder aux journaux d'audit de la même manière que vous accédez à tous les autres CloudTrail journaux à l'aide des CloudTrail API et de la console. Pour plus d'informations sur les CloudTrail journaux, consultezAppels d'API Logging AWS Lake Formation à l'aide de AWS CloudTrail.

Sécurité au niveau des lignes et des cellules

Lake Formation fournit des filtres de données qui vous permettent de restreindre l'accès à une combinaison de colonnes et de lignes. Utilisez la sécurité au niveau des lignes et des cellules pour protéger les données sensibles telles que les informations personnelles identifiables (PII). Pour plus d'informations sur la sécurité au niveau des lignes, consultez. Vue d'ensemble du filtrage des données

Contrôle d’accès basé sur les étiquettes

Utilisez le contrôle d'accès basé sur les balises Lake Formation pour gérer des centaines, voire des milliers d'autorisations de données en créant des étiquettes personnalisées appelées balises LF. Vous pouvez désormais définir des balises LF et les associer à des bases de données, à des tables ou à des colonnes. Partagez ensuite l'accès contrôlé entre les services d'analyse, d'apprentissage automatique (ML) et d'extraction, de transformation et de chargement (ETL) à des fins de consommation. Les balises LF permettent d'étendre facilement la gouvernance des données en remplaçant les définitions de politiques de milliers de ressources par quelques balises logiques. Lake Formation propose une recherche textuelle sur ces métadonnées, afin que vos utilisateurs puissent trouver rapidement les données à analyser.

Accès entre comptes

Les fonctionnalités de gestion des autorisations de Lake Formation simplifient la sécurisation et la gestion des lacs de données distribués sur plusieurs AWS comptes grâce à une approche centralisée, fournissant un contrôle d'accès précis au catalogue de données et aux sites Amazon S3. Pour plus d’informations, consultez Partage de données entre comptes dans Lake Formation.

Partage des données

La fonctionnalité de partage de données vous permet de configurer des autorisations sur des ensembles de données stockés dans différentes sources de données telles qu'Amazon Redshift sans migrer les données ou les métadonnées vers Amazon S3 ou. AWS Glue Data Catalog Vous pouvez utiliser les méthodes suivantes pour partager des données dans Lake Formation :

Pour plus d'informations, voir Partage de données dans Lake Formation.

  • Intégration de Lake Formation au partage de données Amazon Redshift : utilisez Lake Formation pour gérer de manière centralisée les autorisations d'accès aux bases de données, aux tables, aux colonnes et aux lignes des partages de données Amazon Redshift et pour restreindre l'accès des utilisateurs aux objets d'un partage de données.

  • Connexion AWS Glue Data Catalog à des métastores externes : connectez-vous AWS Glue Data Catalog à des métastores externes pour gérer les autorisations d'accès aux ensembles de données dans Amazon S3 à l'aide de Lake Formation. Aucune migration de métadonnées vers le AWS Glue Data Catalog n'est nécessaire.

    Pour plus d’informations, consultez Gestion des autorisations sur les ensembles de données qui utilisent des métastores externes.

  • Intégrer Lake Formation à AWS Data Exchange — Lake Formation prend en charge l'octroi de licences d'accès à vos données via AWS Data Exchange. Si vous souhaitez obtenir une licence pour vos données de Lake Formation, consultez AWS Data Exchange le guide de l'AWS Data Exchange utilisateur.

Débuter avec Lake Formation

La lecture de ces sections est indispensable: