AWS Lake Formation utiliza el AWS Glue Data Catalog para almacenar metadatos de los datos de Amazon S3 en forma de bases de datos y tablas. Las tablas almacenan información sobre los datos subyacentes, incluida la información sobre esquemas, particiones y ubicaciones de datos. Las bases de datos son colecciones de tablas. El Catálogo de datos también contiene enlaces a recursos, que son enlaces a bases de datos y tablas compartidas en cuentas externas, y se utilizan para el acceso entre cuentas a los datos del lago de datos. Cada cuenta AWS dispone de un Catálogo de datos por región AWS.
Lake Formation proporciona un modelo de permisos de sistema de administración de bases de datos relacionales (RDBMS) para conceder o revocar el acceso a bases de datos, tablas y columnas en el Catálogo de datos con datos subyacentes en Amazon S3.
Antes de conocer los detalles del modelo de permisos de Lake Formation, es útil repasar los siguientes antecedentes:
-
Los lagos de datos administrados por Lake Formation residen en ubicaciones designadas en Amazon Simple Storage Service (Amazon S3).
-
Lake Formation mantiene un Catálogo de datos que contiene metadatos sobre los orígenes de datos que se importarán en sus lagos de datos, como los datos de registros y bases de datos relacionales, y sobre los datos de sus lagos de datos en Amazon S3. Los metadatos se organizan en forma de bases de datos y tablas. Las tablas de metadatos contienen el esquema, la ubicación, la partición y otra información sobre los datos que representan. Las bases de datos son colecciones de tablas.
-
El Catálogo de datos de Lake Formation es el mismo Catálogo de datos utilizado por AWS Glue. Puede utilizar rastreadores AWS Glue para crear tablas del Catálogo de datos, y trabajos de extracción, transformación y carga (ETL) AWS Glue para poblar los datos subyacentes en sus lagos de datos.
-
Las bases de datos y las tablas del Catálogo de datos se denominan recursos del Catálogo de datos. Las tablas del Catálogo de datos se denominan tablas de metadatos para distinguirlas de las tablas de los orígenes de datos o de los datos tabulares de Amazon S3. Los datos a los que apuntan las tablas de metadatos en Amazon S3 o en los orígenes de datos se denominan datos subyacentes.
-
Una entidad principal es un usuario o rol, un usuario o grupo de Amazon QuickSight, un usuario o grupo que se autentifica con Lake Formation a través de un proveedor SAML, o para el control de acceso entre cuentas, un ID de cuenta AWS, ID de organización o ID de unidad organizativa.
-
Los rastreadores AWS Glue crean tablas de metadatos, pero también puede crear manualmente tablas de metadatos con la consola de Lake Formation, la API o la AWS Command Line Interface (AWS CLI). Al crear una tabla de metadatos, debe especificar una ubicación. Al crear una base de datos, la ubicación es opcional. Las ubicaciones de las tablas pueden ser ubicaciones de Amazon S3 o ubicaciones de orígenes de datos como una base de datos de Amazon Relational Database Service (Amazon RDS). Las ubicaciones de las bases de datos son siempre ubicaciones de Amazon S3.
-
Los servicios que se integran con Lake Formation, como Amazon Athena y Amazon Redshift, pueden acceder al Catálogo de datos para obtener metadatos y comprobar la autorización para ejecutar consultas. Para obtener una lista completa de los servicios integrados, consulte Integraciones de servicios de AWS con Lake Formation.
Temas
- Descripción general de los permisos de Lake Formation
- Personas de Lake Formation y referencia de permisos IAM
- Cambiar la configuración predeterminada de su lago de datos
- Permisos implícitos de Lake Formation
- Referencia de permisos de Lake Formation
- Integración de IAM Identity Center
- Añadir una ubicación de Amazon S3 a su lago de datos
- Modo de acceso híbrido
- Creación de tablas y bases de datos del Catálogo de datos
- Importación de datos mediante flujos de trabajo en Lake Formation