Tutorial: agregar un rastreador de AWS Glue
Para este escenario de AWS Glue, se le pedirá que analice los datos de llegada de las principales compañías aéreas para calcular la popularidad de los aeropuertos de salida mes a mes. Tiene datos de vuelos para el año 2016 en formato CSV almacenado en Amazon S3. Antes de transformar y analizar los datos, catalogue sus metadatos en AWS Glue Data Catalog.
En este tutorial, agregaremos un rastreador que deduce metadatos de estos registros de vuelo en Amazon S3 y crea una tabla en el Data Catalog.
Temas
Requisitos previos
En este tutorial se supone que usted tiene una cuenta de AWS y acceso a AWS Glue.
Paso 1: agregar un rastreador
Siga estos pasos para configurar y ejecutar un rastreador que extraiga los metadatos de un archivo CSV almacenado en Amazon S3.
Para crear un rastreador que lea archivos almacenados en Amazon S3
-
En la consola del servicio AWS Glue, en el menú de la izquierda, elija Crawlers (Rastreadores).
-
En la página Rastreadores, elija Agregar rastreador. Esto inicia una serie de páginas que le solicitan los detalles del rastreador.
-
En el campo Crawler name (Nombre del rastreador), ingrese
Flights Data Crawler
y, a continuación, elija Next (Siguiente).Los rastreadores invocan clasificadores para inferir el esquema de sus datos. En este tutorial se utiliza el clasificador integrado para CSV de forma predeterminada.
-
Para el tipo de origen de rastreador, elija Data stores (Almacenes de datos) y luego elija Next (Siguiente).
-
Ahora apuntaremos el rastreador a sus datos. En la página Add a data store (Agregar un almacén de datos), elija el almacén de datos de Amazon S3. Este tutorial no utiliza una conexión, así que deje el campo Connection (Conexión) en blanco si está visible.
Para la opción Crawl data in (Rastrear los datos en), elija Specified path in another account (Ruta especificada en otra cuenta). Luego, para Include path (Incluir ruta), ingrese la ruta donde el rastreador puede encontrar los datos de vuelos, que es
s3://crawler-public-us-east-1/flight/2016/csv
. Después de introducir la ruta, el título de este campo cambia a Include path (Incluir ruta). Elija Siguiente. -
Puede rastrear varios almacenes de datos con un único rastreador. Sin embargo, en este tutorial, estamos usando solo un único almacén de datos, así que elija No, y luego Next (Siguiente).
-
El rastreador necesita permisos para acceder al almacén de datos y crear objetos en el AWS Glue Data Catalog. Para configurar estos permisos, elija Create an IAM role (Crear un rol de IAM). El nombre del rol de IAM comienza con
AWSGlueServiceRole-
y, en el campo, ingrese la última parte del nombre del rol. IngreseCrawlerTutorial
y, a continuación, elija Next (Siguiente).nota
Para crear un rol de IAM, el usuario de AWS debe tener permisos
CreateRole
,CreatePolicy
yAttachRolePolicy
.El asistente crea un rol de IAM denominado
AWSGlueServiceRole-CrawlerTutorial
, asocia la política administrada de AWS,AWSGlueServiceRole
, a este rol y agrega una política en línea que permite el acceso de lectura a la ubicacións3://crawler-public-us-east-1/flight/2016/csv
de Amazon S3. -
Cree una programación para el rastreador. Para Frequency (Frecuencia), elija Run on demand (Ejecutar bajo demanda), y luego elija Next (Siguiente).
-
Los rastreadores crean tablas en su Data Catalog. Una base de datos de en una base de datos del Data Catalog. Primero, elija Add database (Agregar base de datos) para crear una base de datos. En la ventana emergente, ingrese
test-flights-db
para el nombre de la base de datos y, a continuación, elija Create (Crear).Luego, ingrese
flights
para Prefix added to tables (Prefijo agregado a las tablas). Utilice los valores predeterminados para el resto de las opciones y elija Next (Siguiente). -
Compruebe las opciones elegidas en el asistente Add crawler (Agregar rastreador). Si detecta algún error, puede elegir Back (Atrás) para volver a las páginas anteriores y realizar cambios.
Después de haber revisado la información, elija Finish (Finalizar) para crear el rastreador.
Paso 2: ejecutar el rastreador
Después de crear un rastreador, el asistente lo envía a la página Crawlers view (Visualización de rastreadores). Dado que creó un rastreador con una programación bajo demanda, se le ofrece la opción de ejecutar el rastreador.
Para ejecutar un rastreador
-
El banner situado cerca de la parte superior de esta página le permite saber que se creó el rastreador y le pregunta si desea ejecutarlo ahora. Elija Run it now (Ejecutarlo ahora) para ejecutar el rastreador.
El banner cambia para mostrar los mensajes “Attempting to run (Intento de ejecución)” and “Running (Ejecución)” para el rastreador. Una vez que el rastreador comienza a ejecutarse, el banner desaparece y la visualización del rastreador se actualiza para mostrar un estado Starting (Inicio) para el rastreador. Después de un minuto, puede hacer clic en el ícono Refresh (Actualizar) para actualizar el estado del rastreador que se muestra en la tabla.
-
Cuando se completa el rastreador, aparece un nuevo banner que describe los cambios realizados por el rastreador. Puede elegir el enlace test-flights-db (probar base de datos de vuelos) para ver los objetos del Data Catalog.
Paso 3: ver objetos del AWS Glue Data Catalog
El rastreador lee los datos en la ubicación de origen y crea tablas en el Data Catalog. Una tabla es una definición de metadatos que representa sus datos e incluye el esquema de datos. Las tablas del Data Catalog no contienen datos. En su lugar, se utilizan estas tablas como origen o destino en una definición de trabajo.
Para ver los objetos del Data Catalog creados por el rastreador
-
En el panel de navegación de la izquierda, en Data Catalog, elija Databases (Bases de datos). Aquí puede ver la base de datos de
flights-db
que crea el rastreador. -
En el panel de navegación de la izquierda, Data catalog y luego en Databases (Bases de datos), elija Tables (Tablas). Aquí puede ver la tabla de
flightscsv
que crea el rastreador. Si elige el nombre de la tabla, puede ver la configuración, los parámetros y las propiedades de la tabla. Si se desplaza hacia abajo en esta vista, puede ver el esquema, que es información sobre las columnas y los tipos de datos de la tabla. -
Si elige View partitions (Ver particiones) en la página de vista de tabla, puede ver las particiones creadas para los datos. La primera columna es la clave de partición.