

AWS Data Pipeline ya no está disponible para nuevos clientes. Los clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. [Más información](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Cómo empezar con AWS Data Pipeline
<a name="dp-getting-started"></a>

AWS Data Pipeline le ayuda a secuenciar, programar, ejecutar y gestionar las cargas de trabajo de procesamiento de datos recurrentes de forma fiable y rentable. Este servicio le facilita el diseño de actividades extract-transform-load (ETL) utilizando datos estructurados y no estructurados, tanto en las instalaciones como en la nube, en función de su lógica empresarial.

Para usarlo AWS Data Pipeline, debe crear una *definición de canalización* que especifique la lógica empresarial del procesamiento de datos. Una definición de la canalización típica consta de [actividades](dp-concepts-activities.md) que definen el trabajo que se realizará, y [nodos de datos](dp-concepts-datanodes.md) que definen la ubicación y el tipo de datos de entrada y salida y una programación que determina cuándo se realizan las actividades.

En este tutorial, ejecuta un script de comandos de shell que cuenta el número de solicitudes GET en registros del servidor web Apache. Esta canalización se ejecuta cada 15 minutos durante una hora y escribe la salida a Amazon S3 en cada iteración.

**Requisitos previos**  
Antes de comenzar, complete las tareas de [Configuración para AWS Data Pipeline](dp-get-setup.md).

**Objetos de canalización**  
La canalización usa los siguientes objetos:

[ShellCommandActivity](dp-object-shellcommandactivity.md)  
Lee el archivo de registro de entrada y cuenta el número de errores.

[S3 DataNode](dp-object-s3datanode.md) (input)  
El bucket de S3 que contiene el archivo de registro de entrada.

[S3 DataNode](dp-object-s3datanode.md) (salida)  
El bucket de S3 para la salida.

[Ec2Resource](dp-object-ec2resource.md)  
El recurso informático que se AWS Data Pipeline utiliza para realizar la actividad.  
Ten en cuenta que si tienes una gran cantidad de datos de archivos de registro, puedes configurar tu canalización para usar un clúster de EMR para procesar los archivos en lugar de una EC2 instancia.

[Schedule](dp-object-schedule.md)  
Define que la actividad se realiza cada 15 minutos durante una hora.

**Topics**
+ [Crear la canalización](#dp-getting-started-create)
+ [Monitorizar la canalización en ejecución](#dp-getting-started-monitor)
+ [Ver la salida](#dp-getting-started-output)
+ [Eliminar la canalización](#dp-getting-started-delete)

## Crear la canalización
<a name="dp-getting-started-create"></a>

*La forma más rápida de empezar AWS Data Pipeline es usar una definición de canalización llamada plantilla.*

**Para crear la canalización**

1. Abre la AWS Data Pipeline consola en. [https://console.aws.amazon.com/datapipeline/](https://console.aws.amazon.com/datapipeline/)

1. En la barra de navegación, seleccione una región. Puede seleccionar cualquier región disponible, independientemente de su ubicación. Muchos recursos de AWS son específicos de una región, pero AWS Data Pipeline le permiten utilizar recursos que se encuentran en una región diferente a la de la canalización.

1. La primera pantalla que vea dependerá de si ha creado una canalización en la región actual.

   1. Si no ha creado una canalización en esta región, la consola muestra una pantalla introductoria. Elija **Get started now**.

   1. Si ya ha creado una canalización en esta región, la consola muestra una página que enumera sus canalizaciones para la región. Elija **Create new pipeline (Crear nueva canalización)**.

1. En **Nombre**, escriba el nombre de la canalización.

1. (Opcional) En **Descripción**, escriba una descripción para su canalización.

1. En **Fuente**, seleccione **Crear con una plantilla** y, a continuación, seleccione la siguiente plantilla: **Cómo empezar a utilizar ShellCommandActivity**.

1. En la sección **Parameters**, que se abrió al seleccionar la plantilla, deje **S3 input folder** y **Shell command to run** con sus valores predeterminados. Haga clic en el icono de la carpeta junto a **S3 output folder**, seleccione uno de los buckets o carpetas y, a continuación, haga clic en **Select**.

1. En **Schedule**, deje los valores predeterminados. Al activar la canalización, empieza la ejecución de la canalización y, después, continúa cada 15 minutos durante una hora.

   Si lo prefiere, puede seleccionar **Run once on pipeline activation** en su lugar.

1. En **Configuración de canalización**, deje el registro activado. Elija el icono de carpeta en la **ubicación de S3 para los registros**, seleccione uno de sus buckets o carpetas y, a continuación, elija **Seleccionar**.

   Si lo prefiere, puede desactivar el registro en su lugar.

1. En **Seguridad/acceso**, deje **Roles de IAM** en **Predeterminado**.

1. Haga clic en **Activate (Activar)**.

   Si lo prefiere, puede elegir **Editar en Architect** para modificar esta canalización. Por ejemplo, puede añadir condiciones previas.

## Monitorizar la canalización en ejecución
<a name="dp-getting-started-monitor"></a>

Después de activar la canalización, se abrirá la página **Execution details**, donde puede monitorizar el progreso de la canalización.

**Para monitorizar el progreso de la canalización**

1. Haga clic en **Update** o pulse F5 para actualizar el estado mostrado.
**sugerencia**  
Si no hay ninguna ejecución en la lista, asegúrese de que **Start (in UTC)** y **End (in UTC)** abarquen el principio y el final programados de la canalización y, a continuación, haga clic en **Update**.

1. Cuando el estado de todos los objetos en la canalización es `FINISHED`, la canalización ha completado correctamente las tareas programadas.

1. Si la canalización no se completa correctamente, compruebe su configuración para ver si existe algún problema. Para obtener más información sobre cómo solucionar problemas de ejecuciones de instancias de la canalización, consulte [Resolución de problemas comunes](dp-check-when-run-fails.md).

## Ver la salida
<a name="dp-getting-started-output"></a>

Abra la consola de Amazon S3 y vaya al bucket. Si ejecutó su canalización cada 15 minutos durante una hora, verá cuatro subcarpetas con marca de tiempo. Cada subcarpeta contiene la salida en un archivo denominado `output.txt`. Dado que ejecutamos el script en el mismo archivo de entrada cada vez, los archivos de salida son idénticos.

## Eliminar la canalización
<a name="dp-getting-started-delete"></a>

Para dejar de incurrir en cargos, elimine su canalización. Al eliminar su canalización, se borran la definición de la canalización y todos los objetos asociados.

**Para eliminar su canalización**

1. En la página **Lista de canalizaciones**, seleccione la canalización.

1. Haga clic en **Acciones** y, después, **Eliminar**.

1. Cuando se le pida confirmación, seleccione **Eliminar**.

Cuando ya no necesite la salida de este tutorial, elimine las carpetas de salida del bucket de Amazon S3.