

AWS Data Pipeline ya no está disponible para nuevos clientes. Los clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. [Más información](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Ejecución de trabajo en recursos existentes mediante Task Runner
<a name="dp-how-task-runner-user-managed"></a>

Puede instalar Task Runner en recursos informáticos que administre como, por ejemplo, una instancia Amazon EC2, o una estación de trabajo o un servidor físicos. Task Runner se puede instalar en cualquier lugar, en cualquier hardware o sistema operativo compatible, siempre que pueda comunicarse con el servicio AWS Data Pipeline web.

Este enfoque puede resultar útil cuando, por ejemplo, desee utilizarlo AWS Data Pipeline para procesar datos almacenados en el firewall de su organización. Al instalar Task Runner en un servidor de la red local, puede acceder a la base de datos local de forma segura y, a continuación, realizar un sondeo AWS Data Pipeline para ver si se ejecuta la siguiente tarea. Cuando AWS Data Pipeline termine de procesar o elimine la canalización, la instancia de Task Runner seguirá ejecutándose en tu recurso computacional hasta que la cierres manualmente. Los registros de Task Runner persisten después de que se haya completado la ejecución de la canalización. 

Para utilizar Task Runner en un recurso que administre, primero debe descargar Task Runner y, a continuación, instalarlo en el recurso informático mediante los procedimientos de esta sección. 

**nota**  
 Solo puede instalar Task Runner en Linux, UNIX o macOS. Task Runner no es compatible con el sistema operativo Windows.   
Para usar Task Runner 2.0, la versión mínima de Java necesaria es 1.7.

Para conectar un Task Runner que haya instalado con las actividades de canalización que debe procesar, añada un campo `workerGroup` al objeto y configure Task Runner para sondear ese valor de grupo de procesos de trabajo. Para ello, transfiera la cadena del grupo de procesos de trabajo en forma de parámetro (por ejemplo, `--workerGroup=wg-12345`) cuando ejecute el archivo JAR de Task Runner. 

![\[AWS Data Pipeline diagram showing monthly task flow for archiving processed invoices using Task Runner.\]](http://docs.aws.amazon.com/es_es/datapipeline/latest/DeveloperGuide/images/dp-task-runner-user-emr-jobflow.png)


```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "workerGroup" : "wg-12345",
  "command" : "mkdir new-directory"
}
```

## Instalación de Task Runner
<a name="dp-installing-taskrunner"></a>

En esta sección, se explica cómo instalar y configurar Task Runner y sus requisitos previos. La instalación es un proceso manual sencillo.

**Para instalar Task Runner**

1. Task Runner requiere las versiones de Java 1.6 o 1.8. Para determinar si se encuentra instalado Java y la versión que se está ejecutando, utilice el siguiente comando:

   ```
   java -version
   ```

    Si no tienes Java 1.6 o 1.8 instalado en tu ordenador, descarga una de estas versiones desde [http://www.oracle. com/technetwork/java/index.html](http://www.oracle.com/technetwork/java/index.html). Descargue e instale Java y, a continuación, continúe con el paso siguiente.

1. Descárguelo `TaskRunner-1.0.jar` desde [https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/ software/latest/TaskRunner/TaskRunner -1.0.jar](https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jar) y, a continuación, cópielo en una carpeta del recurso informático de destino. En los clústeres de Amazon EMR que ejecuten tareas `EmrActivity`, instale Task Runner en el nodo maestro del clúster.

1. Al usar Task Runner para conectarse al servicio AWS Data Pipeline web y procesar los comandos, los usuarios necesitan acceder mediante programación a un rol que tenga permisos para crear o administrar canalizaciones de datos. Para obtener más información, consulte [Concesión de acceso mediante programación](dp-get-setup.md#dp-grant-programmatic-access).

1. Task Runner se conecta al servicio AWS Data Pipeline web mediante HTTPS. Si utiliza un AWS recurso, asegúrese de que HTTPS esté habilitado en la tabla de enrutamiento y en la ACL de subred adecuadas. Si utiliza un firewall o un proxy, asegúrese de que el puerto 443 esté abierto.

# (Opcional) Otorgar a Task Runner acceso a Amazon RDS
<a name="dp-taskrunner-rdssecurity"></a>

Amazon RDS permite controlar el acceso a las instancias de bases de datos mediante grupos de seguridad de base de datos (grupos de seguridad de base de datos). Un grupo de seguridad de base de datos realiza las mismas funciones que un firewall que controla el acceso de red a su instancia de base de datos. De forma predeterminada, el acceso de red está deshabilitado para sus instancias de base de datos. Debe modificar sus grupos de seguridad de base de datos para permitir que Task Runner obtenga acceso a sus instancias de Amazon RDS. Task Runner obtiene acceso a Amazon RDS desde la instancia en la que se ejecuta, por lo que las cuentas y los grupos de seguridad que añada a la instancia de Amazon RDS dependen de dónde instale Task Runner. 

**Para conceder acceso a Task Runner en EC2-Classic**

1. Abra la consola de Amazon RDS.

1. En el panel de navegación, elija **Instances** y seleccione la instancia de base de datos.

1. En **Security and Network** (Seguridad y redes), seleccione el grupo de seguridad, lo cual abre la página **Grupos de seguridad** con este grupo de seguridad de base de datos seleccionado. Seleccione el icono de detalles del grupo de seguridad de base de datos.

1. Bajo **Security Group Details**, cree una regla con los valores adecuados de **Connection Type** y **Details**. Estos campos dependen de dónde se esté ejecutando Task Runner, tal y como se describe aquí:
   + `Ec2Resource`
     + **Connection Type**: `EC2 Security Group`

       **Detalles**: *my-security-group-name* (el nombre del grupo de seguridad que creó para la instancia EC2)
   + `EmrResource`
     + **Connection Type**: `EC2 Security Group`

       **Detalles**: `ElasticMapReduce-master`
     + **Connection Type**: `EC2 Security Group`

       **Detalles**: `ElasticMapReduce-slave`
   + Su entorno local
     + **Connection Type**: `CIDR/IP`:

       **Detalles**: *my-ip-address* (la dirección IP de su computadora o el rango de direcciones IP de su red, si su computadora está protegida por un firewall)

1. Haga clic en Add (Añadir).

**Para conceder acceso a Task Runner en EC2-VPC**

1. Abra la consola de Amazon RDS.

1. En el panel de navegación, seleccione **Instances (Instancias)**.

1. Seleccione el icono de detalles de la instancia de base de datos. En **Seguridad y redes**, abra el enlace al grupo de seguridad, lo que le lleva a la consola de Amazon EC2. Si está utilizando el diseño de consola anterior para los grupos de seguridad, seleccionando el icono que se muestra en la parte superior de la página de la consola para cambiar al nuevo diseño de consola.

1. En la pestaña **Inbound** (Entrada), elija **Edit** (Editar), **Add Rule** (Agregar regla). Especifique el puerto de la base de datos que utilizó al lanzar la instancia de base de datos. El origen depende de dónde se esté ejecutando Task Runner, tal y como se describe aquí:
   + `Ec2Resource`
     + *my-security-group-id*(el ID del grupo de seguridad que creó para la instancia EC2)
   + `EmrResource`
     + *master-security-group-id*(el ID del grupo de `ElasticMapReduce-master` seguridad)
     + *slave-security-group-id*(el ID del grupo `ElasticMapReduce-slave` de seguridad)
   + Su entorno local
     + *ip-address*(la dirección IP de su equipo o el rango de direcciones IP de la red, si el equipo está protegido por un firewall)

1. Haga clic en **Guardar**.

## Iniciar Task Runner
<a name="dp-activate-task-runner"></a>

En una ventana de comandos nueva establecida en el directorio en el que haya instalado Task Runner, inicie Task Runner, con el siguiente comando.

```
java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=myWorkerGroup --region=MyRegion --logUri=s3://amzn-s3-demo-bucket/foldername
```

La opción `--config` apunta a su archivo de credenciales.

La opción `--workerGroup` especifica el nombre del grupo de procesos de trabajo, que debe ser el mismo valor especificado en la canalización para las tareas que va a procesar.

La opción `--region` especifica la región de servicio desde la que extraer las tareas a ejecutar.

La opción `--logUri` se utiliza para enviar los registros comprimidos a una ubicación en Amazon S3.

Cuando Task Runner está activo, imprime la ruta donde se escriben los archivos de registro en la ventana de terminal. A continuación se muestra un ejemplo.

```
Logging to /Computer_Name/.../output/logs
```

Task Runner se debe ejecutar desconectada del shell de inicio de sesión. Si utiliza un terminal de aplicación para conectarse al equipo, puede que tenga que utilizar una utilidad como nohup o screen para evitar que la aplicación Task Runner se cierre al cerrar la sesión. Para obtener más información acerca de las opciones de línea de comandos, consulte [Opciones de configuración de Task Runner](dp-taskrunner-config-options.md).

## Verificación del registro de Task Runner
<a name="dp-verify-task-runner"></a>

La forma más sencilla de verificar si Task Runner está en funcionamiento es comprobar si está escribiendo archivos de registro. Task Runner escribe archivos de registro cada hora en el directorio, `output/logs`, bajo el directorio donde está instalado Task Runner. El nombre del archivo es `Task Runner.log.YYYY-MM-DD-HH`, donde HH va de 00 a 23, en UDT. Para ahorrar espacio de almacenamiento, los archivos de registro con una antigüedad superior a ocho horas se comprimen con GZip.