Automatice los EMR clústeres de Amazon recurrentes con AWS Data Pipeline

AWS Data Pipeline es un servicio que automatiza el movimiento y la transformación de los datos. Puede utilizarlo para programar la transferencia de datos de entrada en Amazon S3 y para programar el lanzamiento de clústeres para procesar dichos datos. Por ejemplo, considere el caso en que tiene un servidor web que graba registros de tráfico. Si desea ejecutar un clúster semanal para analizar los datos de tráfico, puede utilizarlo AWS Data Pipeline para programar esos clústeres. AWS Data Pipeline es un flujo de trabajo basado en datos, de modo que una tarea (lanzar el clúster) puede depender de otra tarea (mover los datos de entrada a Amazon S3). También tiene la funcionalidad de reintento eficaz.

Para obtener más información al respecto AWS Data Pipeline, consulte la Guía para AWS Data Pipeline desarrolladores, especialmente los tutoriales sobre AmazonEMR:

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Clonar un clúster

Solucionar problemas de clústeres de Amazon EMR