Los scripts contienen código que extrae datos de orígenes, los transforma y los carga en destinos. AWS Glue ejecuta un script cuando inicia un flujo de trabajo.
Los scripts de ETL de AWS Glue pueden codificarse en Python o Scala. Los scripts de Python utilizan un lenguaje que es una extensión del dialecto Python de PySpark para los trabajos de extraer, transformar y cargar (ETL). El script contiene constructos ampliados para gestionar las transformaciones de ETL. Al generar automáticamente lógica de código fuente para el flujo de trabajo, se crea un script. Puede editar este script o proporcionar su propio script para procesar el flujo de trabajo de ETL.
Para obtener más información acerca de cómo definir y editar scripts en AWS Glue, consulte Guía de programación de AWS Glue.
Bibliotecas o archivos adicionales
Si su script requiere bibliotecas o archivos adicionales, puede especificarlos del modo siguiente:
- Ruta de la biblioteca Python
-
Rutas de Amazon Simple Storage Service (Amazon S3) separadas por comas a las bibliotecas de Python requeridas por el script.
nota
Solo se pueden utilizar bibliotecas Python puras. Todavía no se admiten las bibliotecas que se basan en las extensiones de C, como la biblioteca de análisis de datos Python pandas.
- Ruta de archivos JAR dependientes
-
Rutas de Amazon S3 separadas por comas a archivos JAR que requiere el script.
nota
Actualmente, solo se pueden usar bibliotecas Java o Scala (2.11).
- Ruta de archivos a la que se hace referencia
-
Rutas de Amazon S3 separadas por comas a archivos adicionales (por ejemplo, archivos de configuración) requeridas por el script.