Información general para el uso de AWS Glue - AWS Glue

Información general para el uso de AWS Glue

Con AWS Glue se almacenan metadatos en el AWS Glue Data Catalog. Estos metadatos se utilizan para organizar los trabajos de ETL que transforman los orígenes de datos y cargan su almacenamiento de datos o lago de datos. A continuación se describe el flujo de flujo de trabajo general y algunas de las elecciones que se realizan cuando se trabaja con AWS Glue.

nota

Puede seguir los pasos que se indican a continuación o puede crear un flujo de trabajo que realice automáticamente los pasos 1 a 3. Para obtener más información, consulte Realización de actividades de ETL complejas mediante esquemas y flujos de trabajo en AWS Glue.

  1. Rellene AWS Glue Data Catalog con definiciones de tabla.

    En la consola, para almacenes de datos persistentes, puede agregar un rastreador para rellenar AWS Glue Data Catalog. Puede iniciar el asistente para Add crawler (Añadir rastreador) desde la lista de tablas o la lista de rastreadores. Debe elegir uno o varios almacenes de datos a los que el rastreador tendrá acceso. También puede crear un programa para establecer la frecuencia de ejecución de su rastreador. Para transmisiones de datos, puede crear manualmente la definición de tabla y definir las propiedades de transmisión.

    Opcionalmente, puede proporcionar un clasificador personalizado que deduce el esquema de los datos. Puede crear clasificadores personalizados utilizando un patrón de grok de . Por otra parte, AWS Glue proporciona clasificadores integrados que los rastreadores utilizan automáticamente si un clasificador personalizado no reconoce los datos. Cuando define un rastreador, no tiene que seleccionar un clasificador. Para obtener más información sobre los clasificadores de AWS Glue, consulte Definición y administración de clasificadores.

    Para rastrear algunos tipos de almacenes de datos se necesita una conexión que proporcione información de autenticación y de ubicación. Si es necesario, puede crear una conexión que proporcione esta información en la consola de AWS Glue.

    El rastreador lee el almacén de datos y crea definiciones de datos y tablas con nombre en AWS Glue Data Catalog. Estas tablas se organizan en una base de datos de su elección. También puede rellenar el Data Catalog con tablas creadas en forma manual. Con este método proporciona el esquema y otros metadatos para crear definiciones de tabla en Data Catalog. Dado que este método puede ser un poco tedioso y dar lugar a errores, a menudo es mejor que un rastreador cree las definiciones de tabla.

    Para obtener más información acerca de cómo rellenar AWS Glue Data Catalog con definiciones de tabla, consulte Creación de tablas.

  2. Defina un flujo de trabajo que describa la transformación de los datos de origen a destino.

    Por lo general, para crear un flujo de trabajo, tiene que realizar las tareas siguientes:

    • Elegir una tabla de AWS Glue Data Catalog para que sea el origen del trabajo. Su flujo de trabajo utilizará esta definición de tabla para obtener acceso a su origen de datos e interpretar el formato de los datos.

    • Elegir una tabla o ubicación de AWS Glue Data Catalog para que sea el destino del flujo de trabajo. Su flujo de trabajo utilizará esta información para obtener acceso a su almacén de datos.

    • Indicar a AWS Glue para que genere un script para transformar el origen en destino. AWS Glue genera el código para llamar a las transformaciones integradas para que conviertan datos de su esquema de origen en formato de esquema de destino. Estas transformaciones llevan a cabo operaciones como copiar datos, cambiar el nombre de columnas y filtrar datos para transformar los datos según sea necesario. Puede modificar este script en la consola de AWS Glue.

    Para obtener más información acerca de cómo definir trabajos en AWS Glue, consulte Creación de trabajos de ETL visuales con AWS Glue Studio.

  3. Ejecute su flujo de trabajo para transformar los datos.

    Puede ejecutar su flujo de trabajo bajo demanda o comenzarlo basándose en uno de los tipos de disparador siguientes:

    • Un disparador basado en un programa cron.

    • Un disparador basado en eventos; por ejemplo, la finalización correcta de otro flujo de trabajo puede iniciar otro flujo de trabajo de AWS Glue.

    • Un disparador que inicie un flujo de trabajo bajo demanda.

    Para obtener más información sobre de los disparadores de AWS Glue, consulte Inicio de trabajos y rastreadores mediante desencadenadores.

  4. Monitoree su rastreadores programados y los trabajos activados.

    Use la consola de AWS Glue para ver los elementos siguientes:

    • Detalles y errores de la ejecución del flujo de trabajo.

    • Detalles y errores de la ejecución del rastreador.

    • Todas las notificaciones sobre las actividades de AWS Glue.

    Para obtener más información sobre la monitorización de los rastreadores y los trabajos en AWS Glue, consulte Supervisión de AWS Glue.