

AWS Data Pipeline não está mais disponível para novos clientes. Os clientes existentes do AWS Data Pipeline podem continuar usando o serviço normalmente. [Saiba mais](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Executar trabalho em recursos existentes usando o Task Runner
<a name="dp-how-task-runner-user-managed"></a>

É possível instalar o Task Runner em recursos computacionais que você gerencia, como uma instância do Amazon EC2, um servidor físico ou uma estação de trabalho. O Task Runner pode ser instalado em qualquer lugar, em qualquer hardware ou sistema operacional compatível, desde que possa se comunicar com o serviço AWS Data Pipeline web.

Essa abordagem pode ser útil quando, por exemplo, você deseja usar AWS Data Pipeline para processar dados armazenados no firewall da sua organização. Ao instalar o Task Runner em um servidor na rede local, você pode acessar o banco de dados local com segurança e, em seguida, pesquisar AWS Data Pipeline a próxima tarefa a ser executada. Quando AWS Data Pipeline termina o processamento ou exclui o pipeline, a instância do Task Runner permanece em execução no seu recurso computacional até que você a desligue manualmente. Os logs do Task Runner são mantidos depois que a execução do pipeline é concluída. 

Para usar o Task Runner em um recurso que você gerencia, é necessário fazer download do Task Runner e instalá-lo no seu recurso computacional, seguindo os procedimentos nesta seção. 

**nota**  
 Você só pode instalar o Task Runner no Linux, UNIX ou macOS. O Task Runner não é compatível com o sistema operacional Windows.   
Para usar o Task Runner 2.0, a versão mínima necessária do Java é 1.7.

Para conectar um Task Runner que você instalou às atividades do pipeline que devem ser processadas, adicione um campo de `workerGroup` ao objeto e configure o Task Runner para pesquisar o valor do grupo desse operador. É possível fazer isso especificando a string do grupo do operador como um parâmetro (por exemplo, `--workerGroup=wg-12345`) ao executar o arquivo JAR do Task Runner. 

![\[AWS Data Pipeline diagram showing monthly task flow for archiving processed invoices using Task Runner.\]](http://docs.aws.amazon.com/pt_br/datapipeline/latest/DeveloperGuide/images/dp-task-runner-user-emr-jobflow.png)


```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "workerGroup" : "wg-12345",
  "command" : "mkdir new-directory"
}
```

## Instalando o Task Runner
<a name="dp-installing-taskrunner"></a>

Esta seção explica como instalar e configurar o Task Runner e quais são os pré-requisitos. A instalação é um processo manual simples.

**Para instalar o Task Runner**

1. O Task Runner requer Java versões 1.6 ou 1.8. Para determinar se o Java está instalado e qual versão está sendo executada, use o seguinte comando:

   ```
   java -version
   ```

    Se você não tiver o Java 1.6 ou 1.8 instalado em seu computador, baixe uma dessas versões em [http://www.oracle. com/technetwork/java/index.html](http://www.oracle.com/technetwork/java/index.html). Faça download e instale o Java. Em seguida, vá para a próxima etapa.

1. Faça o download `TaskRunner-1.0.jar` de [https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/ software/latest/TaskRunner/TaskRunner -1.0.jar](https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jar) e copie-o em uma pasta no recurso de computação de destino. Para clusters do Amazon EMR que executam tarefas de `EmrActivity`, é necessário instalar o Task Runner no nó principal do cluster.

1. Ao usar o Task Runner para se conectar ao serviço AWS Data Pipeline web para processar seus comandos, os usuários precisam de acesso programático a uma função que tenha permissões para criar ou gerenciar pipelines de dados. Para obter mais informações, consulte [Conceder acesso programático](dp-get-setup.md#dp-grant-programmatic-access).

1. O Task Runner se conecta ao serviço AWS Data Pipeline web usando HTTPS. Se você estiver usando um AWS recurso, verifique se o HTTPS está habilitado na tabela de roteamento e na ACL de sub-rede apropriadas. Se você estiver usando um firewall ou proxy, verifique se a porta 443 está aberta.

# (Opcional) Conceder acesso ao Task Runner para o Amazon RDS
<a name="dp-taskrunner-rdssecurity"></a>

Com o Amazon RDS é possível controlar o acesso às suas instâncias de banco de dados usando grupos de segurança de banco de dados. Um security group de banco de dados funciona como um firewall controlando o acesso da rede à sua Instância de banco de dados. Por padrão, o acesso à rede é desativado nas suas instâncias de banco de dados. Você precisa modificar seus grupos de segurança de banco de dados para que o consiga acessar suas instâncias do Amazon RDS. O Task Runner recebe acesso ao Amazon RDS a partir da instância em que é executado. Assim, as contas e os security groups que você adicionar à sua instância do Amazon RDS dependerão de onde você instalou e o Task Runner. 

**Para conceder acesso ao Task Runner no EC2-Classic**

1. Abra o console do Amazon RDS.

1. No painel de navegação, selecione ** Instances** e selecione sua instância de banco de dados.

1. Em **Security and Network**, selecione o security group. A página **Security Groups** é exibida com esse security group de banco de dados selecionado. Selecione o ícone de detalhes do security group de banco de dados.

1. Em **Security Group Details**, crie uma regra com **Connection Type** e **Details** apropriados. Esses campos dependem de onde o Task Runner está sendo executado, como descrito aqui:
   + `Ec2Resource`
     + **Connection Type**: `EC2 Security Group`

       **Detalhes**: *my-security-group-name* (o nome do grupo de segurança que você criou para a instância do EC2)
   + `EmrResource`
     + **Connection Type**: `EC2 Security Group`

       **Detalhes**: `ElasticMapReduce-master`
     + **Connection Type**: `EC2 Security Group`

       **Detalhes**: `ElasticMapReduce-slave`
   + Seu ambiente local (on-premises)
     + **Connection Type**: `CIDR/IP`:

       **Detalhes**: *my-ip-address* (o endereço IP do seu computador ou o intervalo de endereços IP da sua rede, se o computador estiver protegido por um firewall)

1. Clique em Add (Adicionar).

**Para conceder acesso ao Task Runner na EC2-VPC**

1. Abra o console do Amazon RDS.

1. No painel de navegação, escolha **Instâncias**.

1. Selecione o ícone de detalhes da instância de banco de dados. Em **Segurança e rede**, abra o link do grupo de segurança. Isso direciona você ao console do Amazon EC2. Se você estiver usando o design antigo do console para security groups, mude para o novo design selecionando o ícone exibido na parte superior da página do console.

1. Na guia **Entrada**, selecione **Editar**, **Adicionar regra**. Especifique a porta do banco de dados que você usou quando iniciou a instância do banco de dados. A origem depende de onde o Task Runner está sendo executado, como descrito aqui:
   + `Ec2Resource`
     + *my-security-group-id*(o ID do grupo de segurança que você criou para a instância do EC2)
   + `EmrResource`
     + *master-security-group-id*(o ID do grupo `ElasticMapReduce-master` de segurança)
     + *slave-security-group-id*(o ID do grupo `ElasticMapReduce-slave` de segurança)
   + Seu ambiente local (on-premises)
     + *ip-address*(o endereço IP do seu computador ou o intervalo de endereços IP da sua rede, se o computador estiver protegido por um firewall)

1. Clique em **Salvar**.

## Iniciar o Task Runner
<a name="dp-activate-task-runner"></a>

Em uma nova janela de prompt de comando configurada para o diretório em que você instalou o Task Runner, inicie o Task Runner com o comando a seguir.

```
java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=myWorkerGroup --region=MyRegion --logUri=s3://amzn-s3-demo-bucket/foldername
```

A opção `--config` aponta para o arquivo de credenciais.

A opção `--workerGroup` especifica o nome do grupo do operador, que deve ser o mesmo valor especificado no seu pipeline para que tarefas sejam processadas.

A opção `--region` especifica a região de serviço de onde as tarefas serão retiradas para execução.

A opção `--logUri` é usada para enviar seus logs compactados para um local no Amazon S3.

Quando o Task Runner está ativo, ele imprime o caminho do local onde os arquivos de log serão gravados na janela do terminal. Veja um exemplo do a seguir:

```
Logging to /Computer_Name/.../output/logs
```

O Task Runner deve ser executado separadamente do seu shell de login. Se você estiver usando um aplicativo de terminal para se conectar ao seu computador, precisará de um utilitário, como o nohup, ou uma tela para impedir que a aplicação Task Runner seja encerrada quando você se desconectar. Para obter mais informações sobre as opções de linha de comando, consulte [Opções de configuração do Task Runner](dp-taskrunner-config-options.md).

## Verificando o registro do Task Runner
<a name="dp-verify-task-runner"></a>

A maneira mais fácil de saber se o Task Runner está funcionando é verificar se ele está gravando arquivos de log. De hora em hora, o Task Runner grava arquivos de log no diretório, `output/logs`, sob o diretório em que ele está instalado. O nome do arquivo é `Task Runner.log.YYYY-MM-DD-HH`, e HH vai de 00 a 23, em UDT. Para economizar espaço de armazenamento, todos os arquivos de log com mais de oito horas são compactados com GZip.