Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Esquemas y flujos de trabajo en Lake Formation
Un flujo de trabajo encapsula una actividad compleja de extracción, transformación y carga () de múltiples tareas. ETL Los flujos de trabajo generan AWS Glue rastreadores, tareas y activadores para organizar la carga y actualización de los datos. Lake Formation ejecuta y rastrea un flujo de trabajo como una única entidad. Puede configurar un flujo de trabajo para que se ejecute bajo demanda o de forma programada.
Los flujos de trabajo que cree en Lake Formation están visibles en AWS Glue consola como gráfico acíclico dirigido (DAG). Cada DAG nodo es una tarea, un rastreador o un disparador. Para supervisar el progreso y solucionar problemas, puede hacer un seguimiento del estado de cada nodo del flujo de trabajo.
Cuando se completa un flujo de trabajo de Lake Formation, el usuario que lo ejecutó recibe el permiso SELECT
de Lake Formation en las tablas del Catálogo de datos que crea el flujo de trabajo.
También puede crear flujos de trabajo en AWS Glue. Sin embargo, dado que Lake Formation le permite crear un flujo de trabajo a partir de un plano, crear flujos de trabajo es mucho más sencillo y automatizado en Lake Formation. Lake Formation proporciona los siguientes tipos de esquemas:
-
Instantánea de la base de datos: carga o recarga los datos de todas las tablas en el lago de datos desde una JDBC fuente. Puede excluir algunos datos de la fuente en función de un patrón de exclusión.
-
Base de datos incremental: carga solo los datos nuevos en el lago de datos desde una JDBC fuente, en función de los marcadores previamente establecidos. Usted especifica las tablas individuales de la base de datos JDBC de origen que desea incluir. Para cada tabla, elige las columnas de marcadores y el orden de clasificación de los marcadores para hacer un seguimiento de los datos que se han cargado previamente. La primera vez que ejecuta un esquema incremental de base de datos sobre un conjunto de tablas, el flujo de trabajo carga todos los datos de las tablas y establece los marcadores para la siguiente ejecución del esquema incremental de base de datos. Por lo tanto, puede utilizar un esquema de base de datos incremental en lugar del esquema de instantánea de base de datos para cargar todos los datos, siempre que especifique cada tabla de los orígenes de datos como parámetro.
-
Archivo de registro: carga datos de forma masiva desde fuentes de archivos de registro AWS CloudTrail, incluidos los registros de Elastic Load Balancing y los registros de Application Load Balancer.
Utilice la siguiente tabla como ayuda para decidir si debe utilizar una instantánea de base de datos o un esquema incremental de base de datos.
Utilice la instantánea de la base de datos cuando... | Utilice la base de datos incremental cuando... |
---|---|
|
|
nota
Los usuarios no pueden editar los esquemas y flujos de trabajo creados por Lake Formation.