Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Automatice los EMR clústeres de Amazon recurrentes con AWS Data Pipeline
AWS Data Pipeline es un servicio que automatiza el movimiento y la transformación de los datos. Puede utilizarlo para programar la transferencia de datos de entrada en Amazon S3 y para programar el lanzamiento de clústeres para procesar dichos datos. Por ejemplo, considere el caso en que tiene un servidor web que graba registros de tráfico. Si desea ejecutar un clúster semanal para analizar los datos de tráfico, puede utilizarlo AWS Data Pipeline para programar esos clústeres. AWS Data Pipeline es un flujo de trabajo basado en datos, de modo que una tarea (lanzar el clúster) puede depender de otra tarea (mover los datos de entrada a Amazon S3). También tiene la funcionalidad de reintento eficaz.
Para obtener más información al respecto AWS Data Pipeline, consulte la Guía para AWS Data Pipeline desarrolladores, especialmente los tutoriales sobre AmazonEMR: