Administración de trabajos de ETL con AWS Glue Studio - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Administración de trabajos de ETL con AWS Glue Studio

Puede usar la interfaz gráfica simple en AWS Glue Studio para administrar los trabajos de ETL. En el menú de navegación, seleccione Trabajos para ver la página Trabajos. En esta página, puede ver todos los trabajos que ha creado con AWS Glue Studio o con la consola de AWS Glue. Puede ver, administrar y ejecutar sus trabajos en esta página.

Iniciar una ejecución de trabajo

En AWS Glue Studio, puede ejecutar los trabajos bajo demanda. Un trabajo puede ejecutarse varias veces y cada vez que ejecute el trabajo, AWS Glue recopila información sobre las actividades y el rendimiento del trabajo. Esta información se conoce como una ejecución de trabajo y se identifica mediante un ID de ejecución de trabajo.

Puede iniciar una ejecución de trabajo de las siguientes maneras en AWS Glue Studio:

  • En la página Trabajos, elija el trabajo que desea iniciar y, luego, elija el botón Ejecutar trabajo.

  • Si está viendo un trabajo en el editor visual y el trabajo se ha guardado, puede elegir el botón Ejecución para iniciar una ejecución de trabajo.

Para obtener más información acerca de las ejecuciones de trabajos, consulte Uso de trabajos en la consola de AWS Glue en la Guía para desarrolladores de AWS Glue.

Programar ejecuciones de trabajo

En AWS Glue Studio, puede crear una programación para que los trabajos se ejecuten en momentos específicos. Puede especificar restricciones, como la cantidad de veces que desea que se ejecute un trabajo, qué días de la semana se ejecutarán y a qué hora. Estas restricciones se basan en cron y tienen las mismas limitaciones que cron. Por ejemplo, si decide ejecutar su trabajo el día 31 de cada mes, tenga en cuenta que algunos meses no tienen 31 días. Para obtener más información acerca de cron, consulte Expresiones Cron en la Guía para desarrolladores de AWS Glue.

Para ejecutar trabajos de acuerdo con una programación
  1. Utilice uno de los métodos siguientes para crear una programación de trabajo:

    • En la página Trabajos elija el trabajo para el que desea crear una programación, elija Acciones y, a continuación, elija Programar trabajo.

    • Si está viendo un trabajo en el editor visual y el trabajo se ha guardado, elija la pestaña Programaciones. A continuación, elija Crear programación.

  2. En la página Programar ejecución de trabajo, escriba la siguiente información:

    • Nombre: ingrese un nombre para su programación de trabajo.

    • Frecuencia: ingrese la frecuencia para la programación de trabajo. Puede elegir entre las siguientes opciones:

      • Por hora: el trabajo se ejecutará cada hora, comenzando en un minuto específico. Puede especificar el Minuto de la hora que debe ejecutarse el trabajo. De forma predeterminada, cuando elige por hora, el trabajo se ejecuta al comenzar la hora (minuto 0).

      • Por día: el trabajo se ejecutará todos los días, comenzando a la hora indicada. Puede especificar el Minuto de la que hora en la que debe ejecutarse el trabajo y la Hora de inicio para el trabajo. Las horas se especifican con un reloj de 23 horas, en el que se utilizan los números de 13 a 23 para las horas de la tarde. Los valores predeterminados para minuto y hora son 0, lo que significa que si selecciona Por día, el trabajo se ejecutará a medianoche de manera predeterminada.

      • Por semana: el trabajo se ejecutará cada semana en uno o más días. Además de la misma configuración descrita anteriormente para Por día, puede elegir los días de la semana en los que se ejecutará el trabajo. Puede elegir uno o más días.

      • Por mes: el trabajo se ejecutará todos los meses en un día específico. Además de la misma configuración descrita anteriormente para Por día, puede elegir el día del mes en el que se ejecutará el trabajo. Especifique el día como un valor numérico del 1 al 31. Si selecciona un día que no existe en un mes, por ejemplo, el 30 de febrero, entonces el trabajo no se ejecuta ese mes.

      • Personalizado: ingrese una expresión para la programación del trabajo mediante la sintaxis de cron. Las expresiones Cron le permiten crear programaciones más complejas, como el último día del mes (en lugar de un día específico del mes) o cada tres meses los días 7 y 21 del mes.

        Consulte Expresiones Cron en la Guía para desarrolladores de AWS Glue

    • Descripción: de forma opcional, puede especificar una descripción para la programación de trabajos. Si planea utilizar la misma programación para múltiples trabajos, incluir una descripción facilita determinar las tareas de una programación del trabajo.

  3. Elija Crear programación para guardar la programación de trabajos.

  4. Después de crear la programación, aparece un mensaje de éxito en la parte superior de la página de la consola. Puede elegir Detalles del trabajo en este banner para ver los detalles del trabajo. Esto abre la página del editor visual de trabajos, con la pestaña Programaciones seleccionada.

Administrar programaciones de trabajo

Después de crear programaciones para un trabajo, puede abrir el trabajo en el editor visual y elegir la pestaña Programaciones para administrar las programaciones.

En la pestaña Programaciones en el editor visual, puede llevar a cabo las siguientes tareas:

  • Crear una nueva programación.

    Elija Crear programación y, a continuación, ingrese la información de su programación tal y como se describe en Programar ejecuciones de trabajo.

  • Edición de una programación existente.

    Elija la programación que desea editar y, a continuación, elija Acción y luego Editar programación. Cuando elija editar una programación existente, Frecuencia aparece como Personalizado, y la programación se muestra como una expresión cron. Puede modificar la expresión cron, o especificar una nueva programación mediante el botón Frecuencia. Cuando termine de realizar los cambios, elija Actualizar programación.

  • Pausar una programación activa.

    Elija una programación activa y, a continuación, elija Acción, y luego Pausar programación. La programación se desactiva en forma instantánea. Elija el botón actualizar (recargar) para ver el estado actualizado de la programación de trabajos.

  • Reanudar una programación en pausa.

    Elija una programación desactivada y, a continuación, elija Acción, y luego Reanudar programación. La programación se activa en forma instantánea. Elija el botón actualizar (recargar) para ver el estado actualizado de la programación de trabajos.

  • Eliminar una programación.

    Elija la programación que desea eliminar y, a continuación, elija Acción y luego Eliminar programación. La programación se elimina en forma instantánea. Elija el botón actualizar (recargar) para ver la programación de trabajo actualizada. La programación mostrará un estado de Eliminación hasta que se haya eliminado por completo.

Detener ejecuciones de trabajo

Puede detener un trabajo antes de que haya completado su ejecución. Puede elegir esta opción si sabe que el trabajo no está configurado correctamente o si el trabajo tarda demasiado en completarse.

En la página Monitoreo, en la lista Ejecuciones de trabajo, elija el trabajo que desea detener, elija Acciones y, a continuación, elija Detener ejecución.

Ver los trabajos

Puede ver todos sus trabajos en la página Trabajos. Puede acceder a esta página al seleccionar Trabajos en el panel de navegación.

En la página Trabajos, puede ver todos los trabajos que se crearon en su cuenta. La lista Sus trabajos muestra el nombre del trabajo, su tipo, el estado de la última ejecución de ese trabajo y las fechas en las que se creó y modificó por última vez el trabajo. Puede elegir el nombre de un trabajo para ver información detallada de ese trabajo.

También puede utilizar el panel Monitoreo para ver todos los trabajos. Puede acceder al panel al elegir Monitoreo en el panel de navegación.

Personalizar la visualización del trabajo

Puede personalizar la forma en que se muestran los trabajos en la sección Sus trabajos en la página Trabajos. Además, puede escribir texto en el campo de texto de búsqueda para mostrar sólo los trabajos con un nombre que contenga ese texto.

Si elige el ícono de configuración A gear symbol en la sección Sus trabajos, puede personalizar cómo AWS Glue Studio muestra la información en la tabla. Puede elegir ajustar las líneas de texto en la pantalla, cambiar el número de trabajos mostrados en la página y especificar qué columnas mostrar.

Ver información sobre las ejecuciones de trabajos recientes

Un trabajo puede ejecutarse varias veces a medida que se agregan nuevos datos en la ubicación de origen. Cada vez que se ejecuta un trabajo, se le asigna un ID único y se recopila información sobre esa ejecución. Puede utilizar los siguientes métodos para ver esta información:

  • Elija la pestaña Ejecuciones del editor visual para ver la información de ejecución del trabajo que se muestra actualmente.

    En la pestaña Ejecuciones (página Ejecuciones de trabajo recientes), se incluye una tarjeta para cada trabajo ejecutado. La información que se muestra en la pestaña Ejecuciones incluye lo siguiente:

    • ID de ejecución del trabajo

    • La cantidad de intentos de ejecución de este trabajo

    • Estado de la ejecución del trabajo

    • Hora de inicio y finalización de la ejecución del trabajo

    • El tiempo de ejecución para la ejecución del trabajo

    • Un enlace a los archivos de registro del trabajo

    • Un enlace a los archivos de registro de error del trabajo

    • Error devuelto por trabajos fallidos

  • Puede seleccionar una ejecución del trabajo para ver información adicional, que incluya lo siguiente:

Puede seleccionar Ver detalles para ver información similar en la página de detalles de la ejecución del trabajo. Como alternativa, puede ir a la página de detalles de la ejecución del trabajo a través de la página Supervisión. En el panel de navegación, seleccione Monitoreo. Desplácese hacia abajo en la lista Ejecuciones de trabajo. Elija el trabajo y, a continuación, elija Ver detalles de ejecución. Los contenidos se describen en Visualización de los detalles de una ejecución de trabajo.

Para obtener más información acerca de los registros de trabajo, consulte Visualización de los registros de ejecución de trabajo.

Ver el script de trabajo

Después de proporcionar información para todos los nodos del trabajo, AWS Glue Studio genera un script que el trabajo utiliza para leer los datos de la fuente, transformarlos y escribirlos en la ubicación de destino. Si guarda el trabajo, puede ver este script en cualquier momento.

Para ver el script generado para su trabajo
  1. En el panel de navegación, elija Trabajos.

  2. En la página Trabajos, en la lista Sus trabajos elija el nombre del trabajo que desea revisar. Como alternativa, puede seleccionar un trabajo en la lista, elegir la opción Acciones y, a continuación, elegir Editar trabajo.

  3. En la página del editor visual, elija la pestaña Script en la parte superior para ver el script de trabajo.

    Si desea editar el script de trabajo, consulte Guía de programación de AWS Glue.

Modificar las propiedades del trabajo

Los nodos del diagrama de trabajo definen las acciones que realiza el trabajo, pero también se pueden configurar varias propiedades para el trabajo. Estas propiedades determinan el entorno en el que se ejecuta el trabajo, los recursos que utiliza, la configuración de umbral, la configuración de seguridad, etc.

Para personalizar el entorno de ejecución del trabajo
  1. En el panel de navegación, elija Jobs (Trabajos).

  2. En la página Jobs (Trabajos), en la lista Your jobs (Sus trabajos) elija el nombre del trabajo que desea revisar.

  3. En la página del editor visual, elija la pestaña Detalles del trabajo en la parte superior del panel de edición del trabajo.

  4. Modifique las propiedades del trabajo, según sea necesario.

    Para obtener más información acerca de las propiedades de trabajo, consulte Definición de las propiedades del trabajo en la Guía para desarrolladores de AWS Glue.

  5. Expanda la sección Propiedades avanzadas si necesita especificar estas propiedades adicionales del trabajo:

    • Nombre del archivo de script: el nombre del archivo que almacena el script de trabajo en Amazon S3.

    • Ruta del script: ubicación de Amazon S3 donde se almacena el script de trabajo.

    • Métricas de trabajo: (no disponible para trabajos de intérprete de comandos de Python) activa la creación de métricas de Amazon CloudWatch cuando se ejecuta este trabajo.

    • Registro continuo: (no disponible para trabajos de intérprete de comandos de Python) activa el registro continuo en CloudWatch, para que los registros estén disponibles para su visualización antes de que finalice el trabajo.

    • Interfaz de usuario de Spark y Ruta de registros de la interfaz de usuario de Spark: (no disponible para trabajos de intérprete de comandos de Python) activa el uso de la interfaz de usuario de Spark para supervisar este trabajo y especifica la ubicación de los registros de la interfaz de usuario de Spark.

    • Concurrencia máxima: establece el número máximo de ejecuciones concurrentes que están permitidas para este trabajo.

    • Ruta temporal: la ubicación de un directorio de trabajo en Amazon S3 donde los resultados intermedios temporales se escriben cuando AWS Glue ejecuta el script de trabajo.

    • Umbral de notificación de retraso (minutos): especifica un umbral de retraso para el trabajo. Si el trabajo se ejecuta durante un tiempo más largo que el especificado por el umbral, entonces, AWS Glue envía una notificación de retraso para el trabajo a CloudWatch.

    • Configuración de seguridad y Cifrado en el lado del servidor: utilice estos campos para elegir las opciones de cifrado para el trabajo.

    • Utilizar Glue Data Catalog como metaalmacén de Hive: elija esta opción si desea utilizar AWS Glue Data Catalog como una alternativa a Apache Hive Metastore.

    • Conexión de red adicional: para un origen de datos en una VPC, puede especificar una conexión de tipo Network, a fin de garantizar que su trabajo acceda a sus datos a través de la VPC.

    • Ruta de la biblioteca Python, Ruta de archivos JAR dependientes (no disponible para trabajos de intérprete de comandos de Python), o Ruta de archivos referenciados: utilice estos campos para especificar la ubicación de los archivos adicionales que el trabajo utiliza cuando ejecuta el script.

    • Parámetros del trabajo: puede agregar un conjunto de pares de clave-valor que se transfieren como parámetros con denominación al script de trabajo. En las llamadas de Python a AWS Glue API, es mejor transferir los parámetros explícitamente por nombre. Para obtener más información sobre el uso de parámetros en un script de trabajo, consulte Transferencia y acceso a los parámetros de Python en AWS Glue en la Guía para desarrolladores de AWS Glue.

    • Etiquetas: puede agregar etiquetas al trabajo para que le resulte más fácil organizarlos e identificarlos.

  6. Después de modificar las propiedades del trabajo, guarde el trabajo.

Almacenar archivos de mezclas aleatorias de Spark en Amazon S3

Algunos trabajos de ETL requieren leer y combinar información de diversas particiones, por ejemplo, cuando se utiliza una transformación de combinación. Esta operación se conoce como mezclado aleatorio. Durante una mezcla aleatoria, los datos se escriben en el disco y se transfieren a través de la red. Con AWS Glue, versión 3.0, puede configurar Amazon S3 como ubicación de almacenamiento para estos archivos. AWS Glue proporciona un administrador de mezclas aleatorias que escribe y lee archivos de mezcla aleatoria desde y hacia Amazon S3. La escritura y la lectura de archivos de mezcla aleatoria de Amazon S3 es más lenta (entre un 5 % y un 20 %) en comparación con el disco local (o Amazon EBS, que está muy optimizado para Amazon EC2). No obstante, Amazon S3 ofrece capacidad de almacenamiento ilimitada, por lo que no tiene que preocuparse por errores de “No space left on device” al ejecutar su trabajo.

Para configurar su trabajo de modo que utilice Amazon S3 para archivos de mezcla aleatoria
  1. En la página Trabajos, en la lista Sus trabajos elija el nombre del trabajo que desea modificar.

  2. En la página del editor visual, elija la pestaña Job details (Detalles del trabajo) en la parte superior del panel de edición del trabajo.

    Desplácese hasta la sección Parámetros del trabajo.

  3. Especifique los siguientes pares clave-valor.

    • --write-shuffle-files-to-s3true

      Este es el parámetro principal que configura el administrador de mezclas aleatorias en AWS Glue para utilizar los buckets de Amazon S3 para escribir y leer datos aleatorios. Este parámetro tiene un valor predeterminado de false.

    • (Optional) --write-shuffle-spills-to-s3: true

      Este parámetro le permite descargar archivos de desbordamiento en buckets de Amazon S3, lo que proporciona resistencia adicional a su trabajo de Spark en AWS Glue. Esto solo es necesario para cargas de trabajo grandes que provocan grandes desbordamientos al disco. Este parámetro tiene un valor predeterminado de false.

    • (Optional) --conf spark.shuffle.glue.s3ShuffleBucket: S3://<shuffle-bucket>

      Este parámetro especifica el bucket de Amazon S3 que se utilizará al escribir los archivos de mezcla aleatoria. Si no establece este parámetro, la ubicación es la carpeta shuffle-data en la ubicación especificada para Ruta temporal (--TempDir).

      nota

      Asegúrese de que la ubicación del bucket de mezcla aleatoria esté en la misma Región de AWS en la que se ejecuta el trabajo.

      Además, el servicio de mezcla aleatoria no limpia los archivos después de que el trabajo termine de ejecutarse, por lo que debe configurar las políticas de ciclo de vida de almacenamiento de Amazon S3 en la ubicación del bucket de mezcla aleatoria. Para obtener más información, consulte Administración del ciclo de vida de almacenamiento en la Guía del usuario de Amazon S3.

Guardar el trabajo

Se muestra un globo de color rojo: El trabajo no se ha guardado, a la izquierda del botón Guardar hasta que guarde el trabajo.

Un óvalo rojo con la etiqueta “El trabajo no se ha guardado” a la izquierda del botón Guardar.
Para guardar el trabajo
  1. Proporcione toda la información necesaria en las pestañas Visual y Detalles del trabajo.

  2. Seleccione el botón Guardar.

    Después de guardar el trabajo, el globo “no guardado” cambia para mostrar la hora y la fecha en que se guardó el trabajo por última vez.

Si sale de AWS Glue Studio antes de guardar el trabajo, la próxima vez que inicie sesión en AWS Glue Studio, aparecerá una notificación. La notificación indica que hay un trabajo sin guardar y pregunta si desea restaurarlo. Si decide restaurar el trabajo, podrá continuar editándolo.

Solución de errores al guardar un trabajo

Si elige el botón Guardar, pero a su trabajo le falta información necesaria, aparecerá un globo rojo en la pestaña donde falta la información. El número en el globo indica cuántos campos faltantes se detectaron.

Captura de pantalla que muestra las pestañas del panel del editor visual para un trabajo denominado “Trabajo sin título” con un globo con la etiqueta 2 en la pestaña Visual y un globo con la etiqueta 1 en la pestaña Detalles del trabajo.
  • Si un nodo del editor visual no está configurado correctamente, la pestaña Visual muestra un globo rojo y el nodo con el error muestra un símbolo de advertencia A red triangle with an exclamation point in the center .

    1. Elija el nodo. En el panel de detalles del nodo, aparece un globo rojo en la pestaña donde se encuentra la información faltante o incorrecta.

    2. Elija la pestaña del panel de detalles del nodo que muestra un globo rojo y, a continuación, busque los campos problemáticos, que están resaltados. Un mensaje de error debajo de los campos proporciona información adicional sobre el problema.

      Captura de pantalla que muestra la pestaña Visual en el editor de trabajos, que está marcada con un globo con la etiqueta 2. Se selecciona el nodo de origen de datos, que está marcado con una etiqueta de advertencia. En el panel de detalles del nodo, la pestaña Propiedades del origen de datos tiene un globo con la etiqueta 2 y está seleccionada. Dos campos, Base de datos y Tabla están resaltados en rojo y tienen mensajes debajo de ellos que indican que se requiere un valor en esos campos.
  • Si hay un problema con las propiedades del trabajo, la pestaña Detalles del trabajo muestra un globo rojo. Elija esa pestaña y busque los campos problemáticos, que están resaltados. Los mensajes de error debajo de los campos proporcionan información adicional acerca del problema.

    Captura de pantalla que muestra la pestaña Detalles del trabajo en el editor de trabajos, que está marcada con un globo con la etiqueta 1. El campo “Rol de IAM” está resaltado en rojo y tiene un mensaje debajo que indica que se requiere un valor.

Clonación de un trabajo

Puede utilizar la acción Clonar trabajo para copiar un trabajo existente en un nuevo trabajo.

Para crear un nuevo trabajo al copiar un trabajo existente
  1. En la página Trabajos, en la lista Sus trabajos elija el trabajo que desea duplicar.

  2. En el menú Acciones, seleccione Clonar trabajo.

  3. Ingrese un nombre para el nuevo trabajo. A continuación, puede guardar o editar el trabajo.

Eliminación de trabajos

Puede eliminar trabajos que ya no son necesarios. Puede eliminar uno o más trabajos en una sola operación.

Para eliminar trabajos de AWS Glue Studio
  1. En la página Trabajos, en la lista Sus trabajos elija el trabajo que desea eliminar.

  2. En el menú Acciones, elija Eliminar trabajo.

  3. Verifique que desea eliminar el trabajo, ingrese delete.

También puede eliminar un trabajo guardado cuando esté viendo la pestaña Detalles del trabajo de ese trabajo en el editor visual.