Criar o pipeline Monitorar o pipeline em execução Visualizar a saída Excluir o pipeline

Começando com AWS Data Pipeline

AWS Data Pipeline ajuda você a sequenciar, programar, executar e gerenciar cargas de trabalho recorrentes de processamento de dados de forma confiável e econômica. Esse serviço facilita o design de atividades extract-transform-load (ETL) usando dados estruturados e não estruturados, tanto no local quanto na nuvem, com base na sua lógica de negócios.

Para usar AWS Data Pipeline, você cria uma definição de pipeline que especifica a lógica de negócios para seu processamento de dados. Uma definição típica de pipeline consiste em atividades que definem o trabalho a ser realizado e os nós de dados que definem o local e o tipo de dados de entrada e saída.

Neste tutorial, você executará um script de comando shell que conta o número de solicitações GET nos logs do servidor web Apache. Este pipeline é executado a cada 15 minutos por uma hora e grava a saída no Amazon S3 em todas as iterações.

Pré-requisitos

Antes de começar, conclua as tarefas em Configurando para AWS Data Pipeline.

Objetos de pipeline

O pipeline usa os seguintes objetos:

ShellCommandActivity

Lê o arquivo de log de entrada e conta o número de erros.

S3 DataNode (entrada)

O bucket do S3 que contém o arquivo de log de entrada.

S3 DataNode (saída)

O bucket do S3 para saída.

Ec2Resource

O recurso computacional AWS Data Pipeline usado para realizar a atividade.

Observe que, se você tiver uma grande quantidade de dados do arquivo de log, poderá configurar seu pipeline para usar um cluster do EMR para processar os arquivos em vez de uma EC2 instância.

Programação

Define que a atividade é realizada a cada 15 minutos e dura uma hora.

Criar o pipeline

A maneira mais rápida de começar AWS Data Pipeline é usar uma definição de pipeline chamada modelo.

Para criar o pipeline

Abra o AWS Data Pipeline console em https://console.aws.amazon.com/datapipeline/.
Na barra de navegação, selecione uma região. Selecione qualquer região que estiver disponível para você, independentemente do seu local. Muitos recursos da AWS são específicos para uma região, mas AWS Data Pipeline permitem que você use recursos que estão em uma região diferente da do pipeline.
A primeira tela que você vê dependerá de você ter criado ou não um pipeline na região atual.
1. Se ainda não tiver criado um pipeline nessa região, o console exibe uma tela introdutória. Selecione Get started now.
2. Se você já criou um pipeline nessa região, o console exibirá uma página que lista seus pipelines para a região. Escolha Create new pipeline (Criar um novo pipeline).
Em Nome, insira um nome para seu pipeline.
(Opcional) Em Descrição, insira uma descrição para seu pipeline.
Em Origem, selecione Criar usando um modelo e, em seguida, selecione o seguinte modelo: Começando a usar ShellCommandActivity.
Na seção Parameters, que abriu quando você selecionou o modelo, deixe S3 input folder e Shell command to run com seus respectivos valores padrão. Clique no ícone de pasta ao lado de S3 output folder, selecione um dos seus buckets ou pastas e, em seguida, clique em Select.
Em Schedule, deixe os valores padrão. Quando você ativa o pipeline, ele é iniciado e continua sendo executado a cada 15 minutos durante uma hora.

Se preferir, você pode selecionar Run once on pipeline activation.
Em Configuração do pipeline, deixe o registro de log ativado. Escolha o ícone da pasta na localização do S3 para registros, selecione um dos seus buckets ou pastas e, em seguida, escolha Selecionar.

Se preferir, você poderá desabilitar o registro de log.
Em Segurança/acesso, mantenha a seleção perfil do IAM como Padrão.
Clique em Activate.

Se preferir, você pode selecionar Editar no Architect para modificar esse pipeline. Por exemplo, você pode adicionar precondições.

Monitorar o pipeline em execução

Após ativar o pipeline, você será levado à página Execution details na qual poderá monitorar o progresso do pipeline.

Para monitorar o progresso do seu pipeline

Clique em Update ou pressione F5 para atualizar o status exibido.

dica
Se não houver execuções listadas, certifique-se que as opções Start (in UTC) e End (in UTC) abrangem o início e o término programado do pipeline. Em seguida, clique em Update.
Quando o status de cada objeto no pipeline for FINISHED, o pipeline concluiu com êxito as tarefas programadas.
Se o pipeline não for concluído com êxito, verifique se há algum problema nas configurações do pipeline. Para obter mais informações sobre a solução de problemas de execuções de instâncias com falha ou incompletas do pipeline, consulte Resolver problemas comuns.

Visualizar a saída

Abra o console do Amazon S3 e navegue até seu bucket. Se você executou seu pipeline a cada 15 minutos durante uma hora, verá quatro subpastas com os horários registrados. Cada subpasta contém a saída em um arquivo chamado output.txt. Como executamos o script no mesmo arquivo de entrada todas as vezes, os arquivos de saída serão idênticos.

Excluir o pipeline

Para parar de incorrer em cobranças, exclua seu pipeline. A exclusão do pipeline exclui a definição do pipeline e todos os objetos associados.

Para excluir seu pipeline

Na página Listar Pipelines, selecione o pipeline.
Clique em Ações e selecione Excluir.
Quando a confirmação for solicitada, escolha Excluir.

Se você já concluiu este tutorial, exclua as pastas de saída do seu bucket do Amazon S3.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Configuração

Trabalhar com pipelines