AWS Data Pipeline ya no está disponible para nuevos clientes. Clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. Más información
Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ejecución de trabajo en recursos existentes mediante Task Runner
Puede instalar Task Runner en los recursos computacionales que administre, como una EC2 instancia de Amazon o un servidor físico o una estación de trabajo. Task Runner se puede instalar en cualquier lugar, en cualquier hardware o sistema operativo compatible, siempre que pueda comunicarse con el servicio AWS Data Pipeline web.
Este enfoque puede resultar útil cuando, por ejemplo, desee utilizarlo AWS Data Pipeline para procesar datos almacenados en el firewall de su organización. Al instalar Task Runner en un servidor de la red local, puede acceder a la base de datos local de forma segura y, a continuación, realizar una encuesta AWS Data Pipeline para ver si se ejecuta la siguiente tarea. Cuando AWS Data Pipeline termine de procesar o elimine la canalización, la instancia de Task Runner seguirá ejecutándose en tu recurso computacional hasta que la cierres manualmente. Los registros de Task Runner persisten después de que se haya completado la ejecución de la canalización.
Para utilizar Task Runner en un recurso que administre, primero debe descargar Task Runner y, a continuación, instalarlo en el recurso informático mediante los procedimientos de esta sección.
nota
Solo puedes instalar Task Runner en Linux o macOS. UNIX Task Runner no es compatible con el sistema operativo Windows.
Para usar Task Runner 2.0, la versión mínima de Java necesaria es 1.7.
Para conectar un Task Runner que haya instalado con las actividades de canalización que debe procesar, añada un campo workerGroup
al objeto y configure Task Runner para sondear ese valor de grupo de procesos de trabajo. Para ello, pase la cadena del grupo de trabajo como parámetro (por ejemplo--workerGroup=wg-12345
) cuando ejecute el JAR archivo Task Runner.
{ "id" : "CreateDirectory", "type" : "ShellCommandActivity", "workerGroup" : "wg-12345", "command" : "mkdir new-directory" }
Instalación de Task Runner
En esta sección, se explica cómo instalar y configurar Task Runner y sus requisitos previos. La instalación es un proceso manual sencillo.
Para instalar Task Runner
-
Task Runner requiere las versiones de Java 1.6 o 1.8. Para determinar si se encuentra instalado Java y la versión que se está ejecutando, utilice el siguiente comando:
java -version
Si no tiene Java 1.6 o 1.8 instalado en su equipo, descargue una de estas versiones desde http://www.oracle.com/technetwork/java/index.html
. Descargue e instale Java y, a continuación, continúe con el paso siguiente. -
TaskRunner-1.0.jar
Descárguelo de https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jary, a continuación, cópielo en una carpeta del recurso informático de destino. Para EMR los clústeres de Amazon que ejecutan EmrActivity
tareas, instale Task Runner en el nodo principal del clúster. -
Al usar Task Runner para conectarse al servicio AWS Data Pipeline web y procesar los comandos, los usuarios necesitan acceder mediante programación a un rol que tenga permisos para crear o administrar canalizaciones de datos. Para obtener más información, consulte Concesión de acceso mediante programación.
-
Task Runner se conecta al servicio AWS Data Pipeline web mediante. HTTPS Si está utilizando un AWS recurso, asegúrese de que HTTPS esté habilitado en la tabla de enrutamiento y la subred ACL adecuadas. Si utiliza un firewall o un proxy, asegúrese de que el puerto 443 esté abierto.
Iniciar Task Runner
En una ventana de comandos nueva establecida en el directorio en el que haya instalado Task Runner, inicie Task Runner, con el siguiente comando.
java -jar TaskRunner-1.0.jar --config ~/
credentials.json
--workerGroup=myWorkerGroup
--region=MyRegion
--logUri=s3://mybucket/foldername
La opción --config
apunta a su archivo de credenciales.
La opción --workerGroup
especifica el nombre del grupo de procesos de trabajo, que debe ser el mismo valor especificado en la canalización para las tareas que va a procesar.
La opción --region
especifica la región de servicio desde la que extraer las tareas a ejecutar.
La opción --logUri
se utiliza para enviar los registros comprimidos a una ubicación en Amazon S3.
Cuando Task Runner está activo, imprime la ruta donde se escriben los archivos de registro en la ventana de terminal. A continuación, se muestra un ejemplo.
Logging to /Computer_Name/.../output/logs
Task Runner se debe ejecutar desconectada del shell de inicio de sesión. Si utiliza un terminal de aplicación para conectarse al equipo, puede que tenga que utilizar una utilidad como nohup o screen para evitar que la aplicación Task Runner se cierre al cerrar la sesión. Para obtener más información acerca de las opciones de línea de comandos, consulte Opciones de configuración de Task Runner.
Verificación del registro de Task Runner
La forma más sencilla de verificar si Task Runner está en funcionamiento es comprobar si está escribiendo archivos de registro. Task Runner escribe archivos de registro cada hora en el directorio, output/logs
, bajo el directorio donde está instalado Task Runner. El nombre del archivo esTask Runner.log.YYYY-MM-DD-HH
, donde HH va de 00 a 23 pulgadas. UDT Para ahorrar espacio de almacenamiento, los archivos de registro con una antigüedad superior a ocho horas se comprimen conGZip.