Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWS Glue ETL
AWS Glue ETL permite extraer datos de varias fuentes, transformarlos para que se adapten a las necesidades de su empresa y cargarlos en el destino que elija. Este servicio utiliza el motor Apache Spark para distribuir las cargas de trabajo de macrodatos entre los nodos de trabajo, lo que permite realizar transformaciones más rápidas con el procesamiento en memoria.
AWS Glue admite diversas fuentes de datos, incluidas Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB y Amazon Relational Database Service (Amazon RDS). Para obtener más información sobre las fuentes de datos compatibles, consulte Tipos y opciones de conexión para ETL en AWS Glue.
Creación en AWS Glue
AWS Glue proporciona varias formas de crear trabajos de ETL, según su experiencia y caso de uso:
-
Los trabajos del intérprete de comandos de Python están diseñados para ejecutar scripts ETL básicos escritos en Python. Estos trabajos se ejecutan en una sola máquina y son más adecuados para conjuntos de datos pequeños o medianos.
-
Los trabajos de Apache Spark se pueden escribir en Python o Scala. Estos trabajos utilizan Spark para escalar horizontalmente las cargas de trabajo en muchos nodos de trabajo, de modo que puedan gestionar grandes conjuntos de datos y transformaciones complejas.
-
AWS Glue streaming ETL utiliza el motor de streaming estructurado Apache Spark para transformar los datos de streaming en trabajos de microlotes utilizando una semántica de exactamente una sola vez.
Puede crear trabajos AWS Glue de streaming en Python o Scala. -
AWS Glue Studioes una interfaz de boxes-and-arrows estilo visual que permite que los desarrolladores que se inicien en la programación con Apache Spark puedan acceder al ETL basado en Spark.
Unidades de procesamiento de datos
AWS Glue usa unidades de procesamiento de datos (DPUs) para medir los recursos de cómputo asignados a un trabajo de ETL y calcular el costo. Cada DPU equivale a 4 vCPU y 16 GB de memoria. Las DPU deben asignarse a su AWS Glue trabajo en función de su complejidad y volumen de datos. Asignar la cantidad adecuada de DPU le permitirá equilibrar las necesidades de rendimiento con las limitaciones de costos.
AWS Glue proporciona varios tipos de trabajadores que están optimizados para diversas cargas de trabajo:
-
G.1X o G.2X (para la mayoría de las transformaciones, uniones y consultas de datos)
-
G.4X o G.8X (para transformaciones, agregaciones, uniones y consultas de datos más exigentes)
-
G.025X (para flujos de datos esporádicos y de bajo volumen)
-
Estándar (para AWS Glue las versiones 1.0 o anteriores; no se recomienda para versiones posteriores de) AWS Glue
Uso del intérprete de comandos de Python
Para un trabajo del intérprete de comandos de Python, puede usar 1 DPU para usar 16 GB de memoria o 0.0625 DPU para usar 1 GB de memoria. El shell de Python está diseñado para trabajos ETL básicos con conjuntos de datos pequeños o medianos (hasta aproximadamente 10 GB).
Comparación de los tipos de trabajadores
La siguiente tabla muestra los diferentes tipos de AWS Glue trabajadores para las cargas de trabajo por lotes, de streaming y de AWS Glue Studio ETL que utilizan el entorno Apache Spark.
G.1X |
G.2X |
G.4X |
G.8X |
G.025X |
Estándar |
|
vCPU |
4 |
8 |
16 |
32 |
2 |
4 |
Memoria |
16 GB |
32 GB |
64 GB |
128 GB |
4 GB |
16 GB |
Espacio en disco |
64 GB |
128 GB |
256 GB |
512 GB |
64 GB |
50 GB |
Ejecutor por trabajo |
1 |
1 |
1 |
1 |
1 |
2 |
DPU |
1 |
2 |
4 |
8 |
0,25 |
1 |
No se recomienda el tipo de trabajador estándar para la AWS Glue versión 2.0 y posteriores. El tipo de trabajador G.025X solo está disponible para la transmisión de trabajos que utilicen la AWS Glue versión 3.0 o posterior.