Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Utilizándolo con AWS Lake FormationAWS Glue
Los ingenieros y DevOps profesionales de datos utilizan AWS Glue Extract, Transform and Load (ETL) con Apache Spark para realizar transformaciones en sus conjuntos de datos en Amazon S3 y cargar los datos transformados en lagos de datos y almacenes de datos para fines de análisis, aprendizaje automático y desarrollo de aplicaciones. Dado que diferentes equipos acceden al mismo conjunto de datos en Amazon S3, es imprescindible conceder y restringir los permisos en función de sus roles.
AWS Lake Formation se basa en AWS Glueél y los servicios interactúan de las siguientes maneras:
-
Lake Formation y AWS Glue comparten el mismo catálogo de datos.
-
Las siguientes funciones de la consola de Lake Formation invocan la AWS Glue consola:
-
Trabajos: para obtener más información, consulte Agregar trabajos en la Guía para desarrolladores de AWS Glue .
-
Rastreadores: para obtener más información, consulte la sección Catalogación de tablas con un rastreador en la Guía para desarrolladores de AWS Glue .
-
-
Los flujos de trabajo que se generan cuando se utiliza un plano de Lake Formation son AWS Glue flujos de trabajo. Puede ver y gestionar estos flujos de trabajo tanto en la consola de Lake Formation como en la AWS Glue console.
-
Las transformaciones de aprendizaje automático se proporcionan con Lake Formation y se basan en AWS Glue APIoperaciones. Usted crea y administra las transformaciones del aprendizaje automático en el AWS Glue console. Para obtener más información, consulte Transformaciones de machine learning en la Guía para desarrolladores de AWS Glue .
Puede utilizar el control de acceso detallado de Lake Formation para gestionar los recursos del Catálogo de datos existentes y las ubicaciones de datos de Amazon S3.
nota
AWS Glue ETLrequiere acceso total a toda la tabla mientras recupera los datos de la ubicación subyacente de Amazon S3. AWS Glue ETLel trabajo falla si aplica permisos a nivel de columna en una tabla.
Compatibilidad con tipos de tablas transaccionales
Con los permisos de Lake Formation puede proteger sus datos transaccionales en sus lagos de datos basados en Amazon S3. La siguiente tabla muestra los formatos de tablas transaccionales admitidos AWS Glue y los permisos de Lake Formation. Lake Formation hace cumplir estos permisos para AWS Glue las operaciones.
Formatos de tabla compatibles | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Formato de tabla | Descripción y operaciones permitidas | Los permisos de Lake Formation son compatibles en AWS Glue | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Apache Hudi |
Formato de tabla abierta para simplificar el procesamiento incremental de datos y el desarrollo de canalizaciones de datos. Para ver ejemplos, consulte Uso del marco Hudi en AWS Glue. |
Los permisos a nivel de tabla están disponibles para las tablas Hudi. Para obtener más información, consulte la sección sobre Límites. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Apache Iceberg |
Formato de tabla abierta que gestiona grandes colecciones de archivos como tablas. Para ver ejemplos, consulte Uso del marco Iceberg en. AWS Glue |
Los permisos a nivel de tabla están disponibles para las tablas Iceberg. Para obtener más información, consulte la sección sobre Límites. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Linux Foundation Delta Lake |
Delta Lake es un proyecto de código abierto que ayuda a implementar arquitecturas de lagos de datos modernas que se suelen crear en Amazon S3 o Hadoop Distributed File System (). HDFS Para ver ejemplos, consulte Uso del marco Delta Lake en. AWS Glue |
Los permisos a nivel de tabla están disponibles para las tablas Delta Lake. Para obtener más información, consulte la sección sobre Límites. |
Recursos adicionales de
Publicaciones de blog y repositorios
-
Escribir en tablas de Apache Hudi mediante AWS Glue un conector personalizado
-
AWS repositorio de plantillas de Cloudformation y ejemplos de código de pyspark
para analizar los datos de streaming mediante AWS Glue Apache Hudi y Amazon S3.