AWS Glue utiliza otros servicios de AWS para organizar los trabajos de ETL (extracción, transformación y carga) con el fin de crear almacenamientos de datos y lagos de datos, y generar flujos de salida. AWS Glue invoca operaciones de la API para transformar los datos, crear registros en tiempo de ejecución, almacenar su lógica de trabajo y crear notificaciones para monitorear las ejecuciones de trabajo. La consola de AWS Glue conecta estos servicios en una aplicación administrada, para que pueda concentrarse en la creación y monitorización de los trabajos de ETL. La consola desarrolla operaciones administrativas y de desarrollo de trabajos en su nombre. Puede proporcionar credenciales y otras propiedades a AWS Glue para obtener acceso a los orígenes de datos y escribir en los destinos de datos.
AWS Glue se encarga del aprovisionamiento y la administración de los recursos necesarios para ejecutar la carga de flujo de trabajo. No es necesario crear la infraestructura para una herramienta de ETL porque AWS Glue lo hace de forma automática. Cuando se necesitan recursos para reducir el tiempo de arranque, AWS Glue utiliza una instancia de su grupo de instancias para ejecutar la carga de flujo de trabajo.
Con AWS Glue, los trabajos se crean mediante las definiciones de tabla en el Data Catalog. Los trabajos consisten en scripts que contienen las instrucciones que ejecutan las tareas de transformación de datos deseadas. Puede utilizar disparadores para iniciar trabajos en función de una programación o a través del resultado de un evento especificado. Puede determinar dónde van a residir los datos y qué datos de origen van a rellenar el destino. En función de sus entradas, AWS Glue transforma los datos del formato de origen al formato de destino. Como alternativa, también puede proporcionar scripts personalizados en la API o la consola de AWS Glue para procesar sus datos de acuerdo con sus requisitos específicos.
Orígenes y destinos de datos
AWS Glue permite leer y escribir datos de varios sistemas y bases de datos, entre los que se incluyen:
-
Amazon S3
-
Amazon DynamoDB
-
Amazon Redshift
-
Amazon Relational Database Service (Amazon RDS)
-
Bases de datos accesibles a JDBC de terceros
-
MongoDB y Amazon DocumentDB (compatible con MongoDB)
-
Otros conectores de Marketplace y complementos de Apache Spark
Flujos de datos
AWS Glue para Spark puede transmitir datos desde los siguientes sistemas:
-
Amazon Kinesis Data Streams
-
Apache Kafka
AWS Glue está disponible en distintas regiones de AWS. Para obtener más información, consulte Regiones y puntos de conexión de AWS en la Referencia general de Amazon Web Services.
Temas
Los trabajos de ETL sin servidor se ejecutan de forma aislada
AWS Glue ejecuta los trabajos de ETL en un entorno sin servidor, con el motor elegido, Spark o Ray. AWS Glue ejecuta estos trabajos en recursos virtuales que aprovisiona y gestiona en su propia cuenta de servicio.
AWS Glue se ha diseñado para poder:
Segregar datos de clientes.
Proteger los datos de clientes en tránsito y en reposo.
Obtenga acceso a los datos de clientes únicamente según se necesite para dar respuesta a las solicitudes de los clientes, mediante credenciales provisionales y con permisos reducidos o con el consentimiento del cliente para roles de IAM en su cuenta.
Durante el aprovisionamiento de un flujo de trabajo de ETL, usted proporciona los orígenes de datos de entrada y los destinos de datos de salida en la nube virtual privada (VPC). Además, debe proporcionar el rol de IAM, el ID de la VPC, el ID de la subred y el grupo de seguridad; todos ellos necesarios para obtener acceso a los orígenes y los destinos de datos. Para cada tupla (ID de cuenta de cliente, rol de IAM, ID de subred y grupo de seguridad), AWS Glue crea un nuevo entorno que está aislado, a nivel de red y administración, de todos los demás entornos de su cuenta de servicio de AWS Glue.
Usted crea y configura recursos de AWS Glue, como catálogos de datos, trabajos y rastreadores, dentro de su cuenta de AWS. A continuación, estos recursos se asocian al rol de IAM y a la configuración de red (subred y grupo de seguridad) que especifique durante el proceso de creación.
AWS Glue crea interfaces de red elástica en la subred mediante direcciones IP privadas. Los trabajos utilizan estas interfaces de red elástica para obtener acceso a los orígenes de datos y los destinos de datos. El tráfico entrante y saliente del entorno de ejecución del trabajo, así como el interno, está regido por las políticas de VPC y de red, con una única excepción: las llamadas realizadas a las bibliotecas de AWS Glue pueden utilizar un proxy para el tráfico de las operaciones de la API de AWS Glue a través de la VPC de AWS Glue. Se registran todas las llamadas al API de AWS Glue, por tanto, los propietarios de datos pueden auditar el acceso a la API mediante la habilitación de AWS CloudTrail, que entrega registros de auditoría a su cuenta.
Los entornos que administra AWS Glue y que ejecutan los trabajos de ETL están protegidos a través de las mismas prácticas de seguridad que aplican otros servicios de AWS. Para obtener información general de las prácticas y las responsabilidades de seguridad compartidas, consulte el documento técnico de Introducción a la seguridad de procesos de AWS.