

# Tutorial: agregar un rastreador de AWS Glue
<a name="tutorial-add-crawler"></a>

Para este escenario de AWS Glue, se le pedirá que analice los datos de llegada de las principales compañías aéreas para calcular la popularidad de los aeropuertos de salida mes a mes. Tiene datos de vuelos para el año 2016 en formato CSV almacenado en Amazon S3. Antes de transformar y analizar los datos, catalogue sus metadatos en AWS Glue Data Catalog.

En este tutorial, agregaremos un rastreador que deduce metadatos de estos registros de vuelo en Amazon S3 y crea una tabla en el Data Catalog.

**Topics**
+ [Requisitos previos](#tutorial-add-crawler-prerequisites)
+ [Paso 1: agregar un rastreador](#tutorial-add-crawler-step1)
+ [Paso 2: ejecutar el rastreador](#tutorial-add-crawler-step2)
+ [Paso 3: ver objetos del AWS Glue Data Catalog](#tutorial-add-crawler-step3)

## Requisitos previos
<a name="tutorial-add-crawler-prerequisites"></a>

En este tutorial se supone que usted tiene una cuenta de AWS y acceso a AWS Glue.

## Paso 1: agregar un rastreador
<a name="tutorial-add-crawler-step1"></a>

Siga estos pasos para configurar y ejecutar un rastreador que extraiga los metadatos de un archivo CSV almacenado en Amazon S3.

**Para crear un rastreador que lea archivos almacenados en Amazon S3**

1. En la consola del servicio AWS Glue, en el menú de la izquierda, elija **Crawlers (Rastreadores)**.

1. En la página Rastreadores, elija **Agregar rastreador**. Esto inicia una serie de páginas que le solicitan los detalles del rastreador.  
![\[La captura de pantalla muestra la página del rastreador. Desde aquí puede crear un rastreador o editar, duplicar, eliminar o ver un rastreador existente.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/crawlers-create_crawler.png)

1. En el campo Crawler name (Nombre del rastreador), ingrese **Flights Data Crawler** y, a continuación, elija **Next (Siguiente)**.

   Los rastreadores invocan clasificadores para inferir el esquema de sus datos. En este tutorial se utiliza el clasificador integrado para CSV de forma predeterminada. 

1. Para el tipo de origen de rastreador, elija **Data stores (Almacenes de datos)** y luego elija **Next (Siguiente)**.

1. Ahora apuntaremos el rastreador a sus datos. En la página **Add a data store (Agregar un almacén de datos)**, elija el almacén de datos de Amazon S3. Este tutorial no utiliza una conexión, así que deje el campo **Connection (Conexión)** en blanco si está visible. 

   Para la opción **Crawl data in (Rastrear los datos en)**, elija **Specified path in another account (Ruta especificada en otra cuenta)**. Luego, para **Include path (Incluir ruta)**, ingrese la ruta donde el rastreador puede encontrar los datos de vuelos, que es **s3://crawler-public-us-east-1/flight/2016/csv**. Después de introducir la ruta, el título de este campo cambia a **Include path (Incluir ruta).** Elija **Siguiente**.

1. Puede rastrear varios almacenes de datos con un único rastreador. Sin embargo, en este tutorial, estamos usando solo un único almacén de datos, así que elija **No**, y luego **Next (Siguiente)**.

1. El rastreador necesita permisos para acceder al almacén de datos y crear objetos en el AWS Glue Data Catalog. Para configurar estos permisos, elija **Create an IAM role (Crear un rol de IAM)**. El nombre del rol de IAM comienza con `AWSGlueServiceRole-` y, en el campo, ingrese la última parte del nombre del rol. Ingrese **CrawlerTutorial** y, a continuación, elija **Next (Siguiente)**. 
**nota**  
Para crear un rol de IAM, el usuario de AWS debe tener permisos `CreateRole`, `CreatePolicy` y `AttachRolePolicy`.

   El asistente crea un rol de IAM denominado `AWSGlueServiceRole-CrawlerTutorial`, asocia la política administrada de AWS, `AWSGlueServiceRole`, a este rol y agrega una política en línea que permite el acceso de lectura a la ubicación `s3://crawler-public-us-east-1/flight/2016/csv` de Amazon S3.

1. Cree una programación para el rastreador. Para **Frequency (Frecuencia)**, elija **Run on demand (Ejecutar bajo demanda)**, y luego elija **Next (Siguiente)**. 

1. Los rastreadores crean tablas en su Data Catalog. Una base de datos de en una base de datos del Data Catalog. Primero, elija **Add database (Agregar base de datos)** para crear una base de datos. En la ventana emergente, ingrese **test-flights-db** para el nombre de la base de datos y, a continuación, elija **Create (Crear)**.

   Luego, ingrese **flights** para **Prefix added to tables (Prefijo agregado a las tablas)**. Utilice los valores predeterminados para el resto de las opciones y elija **Next (Siguiente)**.

1. Compruebe las opciones elegidas en el asistente **Add crawler (Agregar rastreador)**. Si detecta algún error, puede elegir **Back (Atrás)** para volver a las páginas anteriores y realizar cambios.

   Después de haber revisado la información, elija **Finish (Finalizar)** para crear el rastreador.

## Paso 2: ejecutar el rastreador
<a name="tutorial-add-crawler-step2"></a>

Después de crear un rastreador, el asistente lo envía a la página Crawlers view (Visualización de rastreadores). Dado que creó un rastreador con una programación bajo demanda, se le ofrece la opción de ejecutar el rastreador.

**Para ejecutar un rastreador**

1. El banner situado cerca de la parte superior de esta página le permite saber que se creó el rastreador y le pregunta si desea ejecutarlo ahora. Elija **Run it now (Ejecutarlo ahora)** para ejecutar el rastreador.

   El banner cambia para mostrar los mensajes “Attempting to run (Intento de ejecución)” and “Running (Ejecución)” para el rastreador. Una vez que el rastreador comienza a ejecutarse, el banner desaparece y la visualización del rastreador se actualiza para mostrar un estado Starting (Inicio) para el rastreador. Después de un minuto, puede hacer clic en el ícono Refresh (Actualizar) para actualizar el estado del rastreador que se muestra en la tabla.

1. Cuando se completa el rastreador, aparece un nuevo banner que describe los cambios realizados por el rastreador. Puede elegir el enlace **test-flights-db (probar base de datos de vuelos)** para ver los objetos del Data Catalog.

## Paso 3: ver objetos del AWS Glue Data Catalog
<a name="tutorial-add-crawler-step3"></a>

El rastreador lee los datos en la ubicación de origen y crea tablas en el Data Catalog. Una tabla es una definición de metadatos que representa sus datos e incluye el esquema de datos. Las tablas del Data Catalog no contienen datos. En su lugar, se utilizan estas tablas como origen o destino en una definición de trabajo.

**Para ver los objetos del Data Catalog creados por el rastreador**

1. En el panel de navegación de la izquierda, en **Data Catalog**, elija **Databases (Bases de datos)**. Aquí puede ver la base de datos de `flights-db` que crea el rastreador.

1. En el panel de navegación de la izquierda, **Data catalog** y luego en **Databases (Bases de datos)**, elija **Tables (Tablas)**. Aquí puede ver la tabla de `flightscsv` que crea el rastreador. Si elige el nombre de la tabla, puede ver la configuración, los parámetros y las propiedades de la tabla. Si se desplaza hacia abajo en esta vista, puede ver el esquema, que es información sobre las columnas y los tipos de datos de la tabla.

1. Si elige **View partitions (Ver particiones)** en la página de vista de tabla, puede ver las particiones creadas para los datos. La primera columna es la clave de partición.