AWS Data Pipeline não está mais disponível para novos clientes. Os clientes existentes do AWS Data Pipeline podem continuar usando o serviço normalmente. Saiba mais
As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Processar dados usando Amazon EMR com Hadoop Streaming
Você pode usar AWS Data Pipeline para gerenciar seus clusters do Amazon EMR. Com isso, AWS Data Pipeline você pode especificar condições prévias que devem ser atendidas antes do lançamento do cluster (por exemplo, garantir que os dados atuais sejam enviados para o Amazon S3), um cronograma para executar repetidamente o cluster e a configuração do cluster a ser usada. O tutorial a seguir fornece o passo a passo para que você inicie um cluster simples.
Neste tutorial, você cria um pipeline para um cluster do Amazon EMR simples para executar um trabalho preexistente do Hadoop Streaming fornecido pelo Amazon EMR e enviar uma notificação do Amazon SNS depois que a tarefa for concluída com êxito. Você usa o recurso de cluster do Amazon EMR fornecido por AWS Data Pipeline para essa tarefa. O aplicativo de amostra é chamado WordCount e também pode ser executado manualmente no console do Amazon EMR. Observe que os clusters gerados AWS Data Pipeline em seu nome são exibidos no console do Amazon EMR e são cobrados na sua conta da AWS.
Objetos de pipeline
O pipeline usa os seguintes objetos:
- EmrActivity
-
Define o trabalho a ser executado no pipeline (executa um trabalho preexistente do Hadoop Streaming fornecido pelo Amazon EMR).
- EmrCluster
-
Recursos AWS Data Pipeline usados para realizar essa atividade.
Um cluster é um conjunto de EC2 instâncias da Amazon. AWS Data Pipeline inicia o cluster e, em seguida, o encerra após a conclusão da tarefa.
- Programação
-
Data e hora de início, e a duração dessa atividade. Se preferir, você pode especificar a data e a hora de término.
- SnsAlarm
-
Envia uma notificação do Amazon SNS para o tópico que você especifica depois que a tarefa é concluída com êxito.