

AWS Data Pipeline não está mais disponível para novos clientes. Os clientes existentes do AWS Data Pipeline podem continuar usando o serviço normalmente. [Saiba mais](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Começando com AWS Data Pipeline
<a name="dp-getting-started"></a>

AWS Data Pipeline ajuda você a sequenciar, programar, executar e gerenciar cargas de trabalho recorrentes de processamento de dados de forma confiável e econômica. Esse serviço facilita o design de atividades extract-transform-load (ETL) usando dados estruturados e não estruturados, tanto no local quanto na nuvem, com base na sua lógica de negócios.

Para usar AWS Data Pipeline, você cria uma *definição de pipeline* que especifica a lógica de negócios para seu processamento de dados. Uma definição típica de pipeline consiste em [atividades](dp-concepts-activities.md) que definem o trabalho a ser realizado e os [nós de dados](dp-concepts-datanodes.md) que definem o local e o tipo de dados de entrada e saída.

Neste tutorial, você executará um script de comando shell que conta o número de solicitações GET nos logs do servidor web Apache. Este pipeline é executado a cada 15 minutos por uma hora e grava a saída no Amazon S3 em todas as iterações.

**Pré-requisitos**  
Antes de começar, conclua as tarefas em [Configurando para AWS Data Pipeline](dp-get-setup.md).

**Objetos de pipeline**  
O pipeline usa os seguintes objetos:

[ShellCommandActivity](dp-object-shellcommandactivity.md)  
Lê o arquivo de log de entrada e conta o número de erros.

[S3 DataNode](dp-object-s3datanode.md) (entrada)  
O bucket do S3 que contém o arquivo de log de entrada.

[S3 DataNode](dp-object-s3datanode.md) (saída)  
O bucket do S3 para saída.

[Ec2Resource](dp-object-ec2resource.md)  
O recurso computacional AWS Data Pipeline usado para realizar a atividade.  
Observe que, se você tiver uma grande quantidade de dados do arquivo de log, poderá configurar seu pipeline para usar um cluster do EMR para processar os arquivos em vez de uma EC2 instância.

[Agendamento](dp-object-schedule.md)  
Define que a atividade é realizada a cada 15 minutos e dura uma hora.

**Topics**
+ [Criar o pipeline](#dp-getting-started-create)
+ [Monitorar o pipeline em execução](#dp-getting-started-monitor)
+ [Visualizar a saída](#dp-getting-started-output)
+ [Excluir o pipeline](#dp-getting-started-delete)

## Criar o pipeline
<a name="dp-getting-started-create"></a>

A maneira mais rápida de começar AWS Data Pipeline é usar uma definição de pipeline chamada *modelo*.

**Para criar o pipeline**

1. Abra o AWS Data Pipeline console em [https://console.aws.amazon.com/datapipeline/](https://console.aws.amazon.com/datapipeline/).

1. Na barra de navegação, selecione uma região. Selecione qualquer região que estiver disponível para você, independentemente do seu local. Muitos recursos da AWS são específicos para uma região, mas AWS Data Pipeline permitem que você use recursos que estão em uma região diferente da do pipeline.

1. A primeira tela que você vê dependerá de você ter criado ou não um pipeline na região atual.

   1. Se ainda não tiver criado um pipeline nessa região, o console exibe uma tela introdutória. Selecione **Get started now**.

   1. Se você já criou um pipeline nessa região, o console exibirá uma página que lista seus pipelines para a região. Escolha **Create new pipeline (Criar um novo pipeline)**.

1. Em **Nome**, insira um nome para seu pipeline.

1. (Opcional) Em **Descrição**, insira uma descrição para seu pipeline.

1. Em **Origem**, selecione **Criar usando um modelo** e, em seguida, selecione o seguinte modelo: **Começando a usar ShellCommandActivity**.

1. Na seção **Parameters**, que abriu quando você selecionou o modelo, deixe **S3 input folder** e **Shell command to run** com seus respectivos valores padrão. Clique no ícone de pasta ao lado de **S3 output folder**, selecione um dos seus buckets ou pastas e, em seguida, clique em **Select**.

1. Em **Schedule**, deixe os valores padrão. Quando você ativa o pipeline, ele é iniciado e continua sendo executado a cada 15 minutos durante uma hora.

   Se preferir, você pode selecionar **Run once on pipeline activation**.

1. Em **Configuração do pipeline**, deixe o registro de log ativado. Escolha o ícone da pasta na **localização do S3 para registros**, selecione um dos seus buckets ou pastas e, em seguida, escolha **Selecionar**.

   Se preferir, você poderá desabilitar o registro de log.

1. Em **Segurança/acesso**, mantenha a seleção **perfil do IAM** como **Padrão**.

1. Clique em **Activate**.

   Se preferir, você pode selecionar **Editar no Architect** para modificar esse pipeline. Por exemplo, você pode adicionar precondições.

## Monitorar o pipeline em execução
<a name="dp-getting-started-monitor"></a>

Após ativar o pipeline, você será levado à página **Execution details** na qual poderá monitorar o progresso do pipeline.

**Para monitorar o progresso do seu pipeline**

1. Clique em **Update** ou pressione F5 para atualizar o status exibido.
**dica**  
Se não houver execuções listadas, certifique-se que as opções **Start (in UTC)** e **End (in UTC)** abrangem o início e o término programado do pipeline. Em seguida, clique em **Update**.

1. Quando o status de cada objeto no pipeline for `FINISHED`, o pipeline concluiu com êxito as tarefas programadas.

1. Se o pipeline não for concluído com êxito, verifique se há algum problema nas configurações do pipeline. Para obter mais informações sobre a solução de problemas de execuções de instâncias com falha ou incompletas do pipeline, consulte [Resolver problemas comuns](dp-check-when-run-fails.md).

## Visualizar a saída
<a name="dp-getting-started-output"></a>

Abra o console do Amazon S3 e navegue até seu bucket. Se você executou seu pipeline a cada 15 minutos durante uma hora, verá quatro subpastas com os horários registrados. Cada subpasta contém a saída em um arquivo chamado `output.txt`. Como executamos o script no mesmo arquivo de entrada todas as vezes, os arquivos de saída serão idênticos.

## Excluir o pipeline
<a name="dp-getting-started-delete"></a>

Para parar de incorrer em cobranças, exclua seu pipeline. A exclusão do pipeline exclui a definição do pipeline e todos os objetos associados.

**Para excluir seu pipeline**

1. Na página **Listar Pipelines**, selecione o pipeline.

1. Clique em **Ações** e selecione **Excluir**.

1. Quando a confirmação for solicitada, escolha **Excluir**.

Se você já concluiu este tutorial, exclua as pastas de saída do seu bucket do Amazon S3.