Lago de datos Acceso a los datos Modo de acceso híbrido Esquema Flujo de trabajo Data Catalog Datos subyacentes Entidad principal Administrador de lago de datos

Terminología de Lake Formation

A continuación se indican algunos términos importantes que encontrará en esta guía.

Lago de datos

El lago de datos son sus datos persistentes almacenados en Amazon S3 y administrados por Lake Formation mediante un Catálogo de datos. En general, un lago de datos almacena lo siguiente:

Datos estructurados y no estructurados
Datos sin procesar y datos transformados

Para que una ruta de Amazon S3 esté dentro de un lago de datos, debe estar registrada en Lake Formation.

Acceso a los datos

Lake Formation proporciona un acceso seguro y detallado a los datos a través de un nuevo modelo de concesión/revocación de permisos que amplía AWS Identity and Access Management () las políticas. IAM

Los analistas y los científicos de datos pueden utilizar la cartera completa de servicios AWS analíticos y de aprendizaje automático, como Amazon Athena, para acceder a los datos. Las políticas de seguridad configuradas de Lake Formation ayudan a garantizar que los usuarios solo puedan acceder a los datos para los que están autorizados.

Modo de acceso híbrido

El modo de acceso híbrido le permite proteger y acceder a los datos catalogados mediante los permisos de Lake Formation y los permisos de Amazon IAM S3. El modo de acceso híbrido permite a los administradores de datos incorporar los permisos de Lake Formation de forma selectiva e incremental, centrándose en un caso práctico de lago de datos cada vez.

Esquema

Un esquema es una plantilla de administración de datos que permite incorporar datos fácilmente a un lago de datos. Lake Formation proporciona varios planos, cada uno para un tipo de fuente predefinido, como una base de datos relacional o AWS CloudTrail registros. A partir de un esquema, puede crear un flujo de trabajo. Los flujos de trabajo se componen de AWS Glue rastreadores, tareas y activadores que se generan para organizar la carga y actualización de los datos. Los esquemas toman como entrada el origen de datos, el destino de estos y la programación para configurar el flujo de trabajo.

Flujo de trabajo

Un flujo de trabajo es un contenedor para un conjunto de elementos relacionados AWS Glue trabajos, rastreadores y activadores. El flujo de trabajo se crea en Lake Formation y se ejecuta en el AWS Glue servicio. Lake Formation puede seguir el estado de un flujo de trabajo como una entidad única.

Cuando define un flujo de trabajo, selecciona el esquema en el que se basa. A continuación, puede ejecutar flujos de trabajo a petición o según un calendario.

Los flujos de trabajo que cree en Lake Formation están visibles en la AWS Glue consola como gráfico acíclico dirigido (DAG). Con laDAG, puede realizar un seguimiento del progreso del flujo de trabajo y solucionar problemas.

Data Catalog

El Catálogo de datos es su almacén persistente de metadatos. Se trata de un servicio gestionado que le permite almacenar, anotar y compartir metadatos en la AWS nube del mismo modo que lo haría en un metaalmacén de Apache Hive. Proporciona un repositorio uniforme donde los sistemas dispares pueden almacenar y encontrar metadatos para rastrear los datos en silos de datos, y luego utilizar esos metadatos para consultar y transformar los datos. Lake Formation usa el AWS Glue Catálogo de datos para almacenar metadatos sobre lagos de datos, fuentes de datos, transformaciones y objetivos.

Los metadatos sobre orígenes de datos y objetivos se presentan en forma de bases de datos y tablas. Las tablas almacenan información sobre el esquema, la ubicación, etc. Las bases de datos son colecciones de tablas. Lake Formation proporciona una jerarquía de permisos para controlar el acceso a las bases de datos y tablas del Catálogo de datos.

Cada AWS cuenta tiene un catálogo de datos por AWS región.

Datos subyacentes

Los datos subyacentes se refieren a los datos de origen o datos dentro de los lagos de datos a los que apuntan las tablas del Catálogo de datos.

Entidad principal

Un principal es un AWS Identity and Access Management (IAM) usuario o rol o un usuario de Active Directory.

Administrador de lago de datos

Un administrador de un lago de datos es una entidad principal que puede conceder a cualquier entidad principal (incluida la propia) permisos sobre cualquier recurso o ubicación de datos del Catálogo de datos. Designe a un administrador del lago de datos como primer usuario del Catálogo de datos. Este usuario puede entonces conceder permisos más específicos de recursos a otras entidades principales.

nota

IAMLos usuarios administrativos (usuarios con la política AdministratorAccess AWS administrada) no son automáticamente administradores de lagos de datos. Por ejemplo, no pueden conceder permisos de Lake Formation sobre objetos del catálogo a menos que se les hayan concedido permisos para hacerlo. Sin embargo, pueden usar la consola de Lake Formation o designarse API a sí mismos como administradores de lagos de datos.

Para obtener información sobre las capacidades de un administrador de lago de datos, consulte Permisos implícitos de Lake Formation. Para obtener información sobre la designación de un usuario como administrador del lago de datos, consulte Crear un administrador de lago de datos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Componentes de Lake Formation

AWS integraciones de servicios con Lake Formation