

AWS Data Pipeline ya no está disponible para nuevos clientes. Los clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. [Más información](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Actividades
<a name="dp-object-activities"></a>

Los objetos de la AWS Data Pipeline actividad son los siguientes:

**Topics**
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [HadoopActivity](dp-object-hadoopactivity.md)
+ [HiveActivity](dp-object-hiveactivity.md)
+ [HiveCopyActivity](dp-object-hivecopyactivity.md)
+ [PigActivity](dp-object-pigactivity.md)
+ [RedshiftCopyActivity](dp-object-redshiftcopyactivity.md)
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [SqlActivity](dp-object-sqlactivity.md)

# CopyActivity
<a name="dp-object-copyactivity"></a>

Copia los datos de una ubicación a otra. `CopyActivity`admite [S3 DataNode](dp-object-s3datanode.md) y [SqlDataNode](dp-object-sqldatanode.md) como entrada y salida y la operación de copia se realiza normalmente record-by-record. Sin embargo, `CopyActivity` proporciona copia de Amazon S3 a Amazon S3 de alto desempeño cuando se cumplen todas las condiciones siguientes:
+ La entrada y la salida son S3 DataNodes
+ El campo `dataFormat` es el mismo para la entrada y la salida

Si proporciona archivos de datos comprimidos como entrada y no lo indica mediante el campo `compression` en los nodos de datos de S3, es posible que `CopyActivity` produzca un error. En este caso, `CopyActivity` no detecta correctamente el carácter de fin de registro y la operación produce un error. Además, `CopyActivity` admite la copia de un directorio a otro y la copia de un archivo a un directorio, pero la record-by-record copia se produce al copiar un directorio a un archivo. Por último, `CopyActivity` no admite la copia de archivos de Amazon S3 multiparte. 

`CopyActivity` tiene limitaciones específicas en cuanto a su compatibilidad con CSV. Cuando usa un S3 DataNode como entrada`CopyActivity`, solo puede usar una Unix/Linux variante del formato de archivo de datos CSV para los campos de entrada y salida de Amazon S3. La Unix/Linux variante requiere lo siguiente: 
+ El separador debe ser el carácter "," (coma).
+ Los registros no se indican entre comillas.
+ El carácter de escape predeterminado es el valor ASCII 92 (barra diagonal invertida).
+ El identificador de fin de registro es el valor ASCII 10 (o "\$1n").

Los sistemas basados en Windows suelen utilizar una secuencia de end-of-record caracteres diferente: un tren de ida y vuelta y una alimentación de línea al mismo tiempo (valor ASCII 13 y valor ASCII 10). Debe adaptarse a esta diferencia con un mecanismo adicional como, por ejemplo, un script previo a la copia para modificar los datos de entrada, a fin de garantizar que `CopyActivity` pueda detectar correctamente el fin de un registro; de lo contrario, `CopyActivity` devuelve error repetidamente.

Al usar `CopyActivity` para exportar desde un objeto RDS de PostgreSQL a un formato de datos TSV, el carácter NULL predeterminado es \$1n.

## Ejemplo
<a name="copyactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros tres objetos que se definirían en el mismo archivo de definición de canalización. `CopyPeriod` es un objeto `Schedule`, y `InputData` y `OutputData` son objetos del nodo de datos.

```
{
  "id" : "S3ToS3Copy",
  "type" : "CopyActivity",
  "schedule" : { "ref" : "CopyPeriod" },
  "input" : { "ref" : "InputData" },
  "output" : { "ref" : "OutputData" },
  "runsOn" : { "ref" : "MyEc2Resource" }
}
```

## Sintaxis
<a name="copyactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente un horario en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| input | El origen de datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | El origen de datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="copyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [Exportación de datos de MySQL a Amazon S3 mediante AWS Data Pipeline](dp-copydata-mysql.md)

# EmrActivity
<a name="dp-object-emractivity"></a>

 Ejecuta un clúster de EMR. 

AWS Data Pipeline utiliza un formato para los pasos diferente al de Amazon EMR; por ejemplo, AWS Data Pipeline utiliza argumentos separados por comas después del nombre JAR en el campo step. `EmrActivity` En el siguiente ejemplo, se muestra un paso formateado para Amazon EMR, seguido de su equivalente para AWS Data Pipeline :

```
s3://amzn-s3-demo-bucket/MyWork.jar arg1 arg2 arg3
```

```
"s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3"
```

## Ejemplos
<a name="emractivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. En este ejemplo se utilizan las versiones anteriores de Amazon EMR. Verifique que este ejemplo es adecuado para la versión del clúster de Amazon EMR que está utilizando. 

Este objeto hace referencia a otros tres objetos que se definirían en el mismo archivo de definición de canalización. `MyEmrCluster` es un objeto `EmrCluster`, y `MyS3Input` y `MyS3Output` son objetos `S3DataNode`. 

**nota**  
En este ejemplo, puede reemplazar el campo `step` por su cadena de clúster deseada, que podría ser un script de Pig, un clúster de Hadoop Streaming, su propio JAR personalizado (incluidos sus parámetros), etc.

Hadoop 2.x (AMI 3.x)

```
{
  "id" : "MyEmrActivity",
  "type" : "EmrActivity",
  "runsOn" : { "ref" : "MyEmrCluster" },
  "preStepCommand" : "scp remoteFiles localFiles",
  "step" : ["s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg,-files,s3://amzn-s3-demo-bucket/myPath/myFile.py,-input,s3://myinputbucket/path,-output,s3://myoutputbucket/path,-mapper,myFile.py,-reducer,reducerName","s3://amzn-s3-demo-bucket/myPath/myotherStep.jar,..."],
  "postStepCommand" : "scp localFiles remoteFiles",
  "input" : { "ref" : "MyS3Input" },
  "output" : { "ref" : "MyS3Output" }
}
```

**nota**  
Para pasar argumentos a una aplicación en un paso, es necesario especificar la región en la ruta del script, como en el siguiente ejemplo. Además, es posible que necesite aplicar escape a los argumentos que transfiere. Por ejemplo, si usa `script-runner.jar` para ejecutar un script de shell y desea transferir argumentos al script, debe aplicar escape a las comas que los separan. En el siguiente slot del paso se ilustra cómo hacerlo:   

```
"step" : "s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://datapipeline/echo.sh,a\\\\,b\\\\,c"
```
Este paso usa `script-runner.jar` para ejecutar el script de shell `echo.sh` y transfiere `a`, `b` y `c` como argumento único al script. El primer carácter de escape se quita del argumento obtenido, por lo que es posible que sea necesario aplicar escape de nuevo. Por ejemplo, si tuviera `File\.gz` como argumento en JSON, podría aplicarle escape mediante `File\\\\.gz`. Sin embargo, debido que el primer escape se ha descartado, debe usar `File\\\\\\\\.gz `.

## Sintaxis
<a name="emractivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Especifique una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Puede cumplir este requisito estableciendo de forma explícita un programa en el objeto, por ejemplo, especificando "schedule": \$1"ref": "DefaultSchedule"\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), puede crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» «\$1 myScheduleId | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El clúster de Amazon EMR en el que se ejecutará este trabajo. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myEmrCluster Id "\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «dependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| input | La ubicación de los datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | La ubicación de los datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | El elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de Amazon S3, como 's3://BucketName/Prefix/ 'para cargar los registros de la canalización. | Cadena | 
| postStepCommand | Scripts de shell que se van a ejecutar después de terminar todos los pasos. Para especificar varios scripts, hasta 255, añada varios campos postStepCommand. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «precondition»: \$1"ref»:» «\$1 myPreconditionId | 
| preStepCommand | Scripts de shell que se van a ejecutar antes de que se ejecute algún paso. Para especificar varios scripts, hasta 255, añada varios campos preStepCommand. | Cadena | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resizeClusterBeforeEn ejecución |  Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a las tablas de DynamoDB especificadas como entradas o salidas.   Si `EmrActivity` usa un `DynamoDBDataNode` nodo de datos de entrada o salida, y si lo establece en`TRUE`, AWS Data Pipeline comienza `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instancia. Se sobrescriben las opciones de tipo de instancia con `m3.xlarge`, lo que podría aumentar los costos mensuales.   | Booleano | 
| resizeClusterMaxInstancias | Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. | Entero | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio o al final del intervalo. Los valores son: cron, ondemand y timeseries. La programación timeseries significa que las instancias se programan al final de cada intervalo. La programación cron significa que las instancias se programan al principio de cada intervalo. Un programa ondemand le permite ejecutar una canalización una vez por activación. No tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa ondemand, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones ondemand, solo tiene que llamar a la operación ActivatePipeline para cada ejecución posterior.  | Enumeración | 
| paso | Uno o varios pasos para que se ejecute el clúster. Para especificar varios pasos, hasta 255, añada varios campos step. Utilice argumentos separados por comas después del nombre de JAR; por ejemplo, "s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3". | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, cascadeFailedOn «: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="emractivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HadoopActivity
<a name="dp-object-hadoopactivity"></a>

 Ejecuta un MapReduce trabajo en un clúster. El clúster puede ser un clúster de EMR administrado por AWS Data Pipeline u otro recurso si lo usa. TaskRunner HadoopActivity Úselo cuando desee ejecutar el trabajo en paralelo. Esto le permite utilizar los recursos de programación del marco YARN o el negociador de MapReduce recursos de Hadoop 1. Si desea ejecutar el trabajo de forma secuencial mediante la acción de paso de Amazon EMR, puede usar [EmrActivity](dp-object-emractivity.md).

## Ejemplos
<a name="hadoopactivity-example"></a>

**HadoopActivity mediante un clúster de EMR gestionado por AWS Data Pipeline**  
El siguiente HadoopActivity objeto utiliza un EmrCluster recurso para ejecutar un programa:

```
 {
   "name": "MyHadoopActivity",
   "schedule": {"ref": "ResourcePeriod"},
   "runsOn": {"ref": “MyEmrCluster”},
   "type": "HadoopActivity",
   "preActivityTaskConfig":{"ref":"preTaskScriptConfig”},   
   "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
   "argument": [
     "-files",
     “s3://elasticmapreduce/samples/wordcount/wordSplitter.py“,
     "-mapper",
     "wordSplitter.py",
     "-reducer",
     "aggregate",
     "-input",
     "s3://elasticmapreduce/samples/wordcount/input/",
     "-output",
     “s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
   ],
   "maximumRetries": "0",
   "postActivityTaskConfig":{"ref":"postTaskScriptConfig”},
   "hadoopQueue" : “high”
 }
```

Esta es la correspondiente*MyEmrCluster*, que configura las colas FairScheduler y en YARN para Hadoop 2: AMIs

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
   "hadoopSchedulerType" : "PARALLEL_FAIR_SCHEDULING",
  “amiVersion” : “3.7.0”,
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\,high\,default,-z,yarn.scheduler.capacity.root.high.capacity=50,-z,yarn.scheduler.capacity.root.low.capacity=10,-z,yarn.scheduler.capacity.root.default.capacity=30”]
}
```

Esto es lo que se usa para configurar en EmrCluster Hadoop 1: FairScheduler 

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",    
      "hadoopSchedulerType": "PARALLEL_FAIR_SCHEDULING",
      "amiVersion": "2.4.8",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-m,mapred.queue.names=low\\\\,high\\\\,default,-m,mapred.fairscheduler.poolnameproperty=mapred.job.queue.name"
          }
```

Las siguientes EmrCluster configuraciones para Hadoop 2 están basadas en Hadoop CapacityScheduler 2: AMIs

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",
      "hadoopSchedulerType": "PARALLEL_CAPACITY_SCHEDULING",
      "amiVersion": "3.7.0",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\\\\,high,-z,yarn.scheduler.capacity.root.high.capacity=40,-z,yarn.scheduler.capacity.root.low.capacity=60"
    }
```

**HadoopActivity usar un clúster de EMR existente**  
En este ejemplo, utiliza grupos de trabajo y TaskRunner a para ejecutar un programa en un clúster de EMR existente. La siguiente definición de canalización se utiliza para: HadoopActivity 
+ Ejecuta un MapReduce programa solo con *myWorkerGroup* recursos. Para obtener más información acerca de los grupos de procesos de trabajo, consulte [Ejecución de trabajo en recursos existentes mediante Task Runner](dp-how-task-runner-user-managed.md).
+ Ejecute un preActivityTask Config and postActivityTask Config

```
{
  "objects": [
    {
      "argument": [
        "-files",
        "s3://elasticmapreduce/samples/wordcount/wordSplitter.py",
        "-mapper",
        "wordSplitter.py",
        "-reducer",
        "aggregate",
        "-input",
        "s3://elasticmapreduce/samples/wordcount/input/",
        "-output",
        "s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
      ],
      "id": "MyHadoopActivity",
      "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
      "name": "MyHadoopActivity",
      "type": "HadoopActivity"
    },
    {
      "id": "SchedulePeriod",
      "startDateTime": "start_datetime",
      "name": "SchedulePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "end_datetime"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/preTaskScript.sh",
      "name": "preTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/postTaskScript.sh",
      "name": "postTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "Default",
      "scheduleType": "cron",
      "schedule": {
        "ref": "SchedulePeriod"
      },
      "name": "Default",
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/logs/2015-05-22T18:02:00.343Z642f3fe415",
      "maximumRetries": "0",    
      "workerGroup": "myWorkerGroup",
      "preActivityTaskConfig": {
        "ref": "preTaskScriptConfig"
      },
      "postActivityTaskConfig": {
        "ref": "postTaskScriptConfig"
      }    
    }
  ] 
}
```

## Sintaxis
<a name="hadoopactivity-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| jarUri | Ubicación de un JAR en Amazon S3 o en el sistema de archivos local del clúster con el que se va a ejecutar HadoopActivity. | Cadena | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Clúster de EMR en el que se ejecutará este trabajo. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myEmrCluster Id "\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| argumento | Argumentos que se pasan al archivo JAR. | Cadena | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| hadoopQueue | El nombre de cola de programador Hadoop en el que se enviará la actividad. | Cadena | 
| input | Ubicación de los datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| mainClass | La clase principal del JAR con el que estás ejecutando HadoopActivity. | Cadena | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | Ubicación de los datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| postActivityTaskConfig | Script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "postActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "preActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="hadoopactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HiveActivity
<a name="dp-object-hiveactivity"></a>

Ejecuta una consulta de Hive en un clúster de EMR. `HiveActivity` facilita la configuración de una actividad de Amazon EMR y crea automáticamente tablas de Hive basadas en datos de entrada procedentes de Amazon S3 o Amazon RDS. Todo lo que necesita especificar es el HiveQL para que se ejecute en los datos de origen. AWS Data Pipeline crea automáticamente tablas de Hive con `${input1}``${input2}`, etc., en función de los campos de entrada del objeto. `HiveActivity` 

Para las entradas de Amazon S3 el campo `dataFormat` se usa para crear los nombres de las columnas de Hive. 

En las entradas de MySQL (Amazon RDS), los nombres de las columnas para la consulta SQL se utilizan para crear los nombres de las columnas de Hive.

**nota**  
Esta actividad usa [CSV Serde](https://cwiki.apache.org/confluence/display/Hive/CSV+Serde) de Hive.

## Ejemplo
<a name="hiveactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros tres objetos que se definen en el mismo archivo de definición de canalización. `MySchedule` es un objeto `Schedule`, y `MyS3Input` y `MyS3Output` son objetos del nodo de datos.

```
{
  "name" : "ProcessLogData",
  "id" : "MyHiveActivity",
  "type" : "HiveActivity",
  "schedule" : { "ref": "MySchedule" },
  "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};",
  "input" : { "ref": "MyS3Input" },
  "output" : { "ref": "MyS3Output" },
  "runsOn" : { "ref": "MyEmrCluster" }
}
```

## Sintaxis
<a name="hiveactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Especifique una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Puede cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), puede crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| hiveScript | El script de Hive que se ejecutará. | Cadena | 
| scriptUri | La ubicación del script de Hive que se ejecutará (por ejemplo, s3://scriptLocation). | Cadena | 

 


****  

| Grupo obligatorio | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El clúster de EMR en el que se ejecuta HiveActivity. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myEmrCluster Id "\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 
| input | El origen de datos de entrada. | Objeto de referencia, como «input»: \$1"ref»:» myDataNode Id "\$1 | 
| salida | El origen de datos de salida. | Objeto de referencia, como «output»: \$1"ref»:» myDataNode Id "\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, como «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| hadoopQueue | El nombre de cola de programador Hadoop en el que se enviará el trabajo. | Cadena | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, como «OnFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, como "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, como «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, como «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| postActivityTaskConfig | Script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, como "postActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, como "preActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, como «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resizeClusterBeforeEn ejecución | Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a los nodos de datos de DynamoDB especificados como entradas o salidas.  Si tu actividad usa un `DynamoDBDataNode` nodo de datos de entrada o de salida, y si lo configuras en`TRUE`, AWS Data Pipeline comienza `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instancias. Se sobrescriben las opciones de tipo de instancia con `m3.xlarge`, lo que podría aumentar los costos mensuales.  | Booleano | 
| resizeClusterMaxInstancias | Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. | Entero | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| scriptVariable | Especifica variables de script para que Amazon EMR se pase a Hive al ejecutar un script. Por ejemplo, las siguientes variables de script de ejemplo pasarían una variable SAMPLE y FILTER\$1DATE a Hive: SAMPLE=s3://elasticmapreduce/samples/hive-ads y  FILTER\$1DATE=\$1\$1format(@scheduledStartTime,'YYYY-MM-dd')\$1%. Este campo acepta varios valores y funciona con los campos script y scriptUri. Además, scriptVariable funciona independientemente de si stage se establece en true o false. Este campo es especialmente útil para enviar valores dinámicos a Hive mediante expresiones y funciones de AWS Data Pipeline . | Cadena | 
| etapa | Determina si el uso transitorio se habilita antes o después de la ejecución del script. No se permite con Hive 11, de modo que use una versión 3.2.0 o superior de AMI de Amazon EMR. | Booleano | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, como «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, como cascadeFailedOn «: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada de un objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada de un objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, como «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="hiveactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# HiveCopyActivity
<a name="dp-object-hivecopyactivity"></a>

Ejecuta una consulta de Hive en un clúster de EMR. `HiveCopyActivity` facilita la copia de datos entre las tablas de DynamoDB. `HiveCopyActivity` acepta una instrucción de HiveQL para filtrar datos de entrada desde DynamoDB en el nivel de columna y de fila.

## Ejemplo
<a name="hivecopyactivity-example"></a>

En el siguiente ejemplo se muestra cómo usar `HiveCopyActivity` y `DynamoDBExportDataFormat` para copiar datos de un nodo `DynamoDBDataNode` a otro, mientras se filtran datos, en función de una marca temporal.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Sintaxis
<a name="hivecopyactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Especifique el clúster en el que ejecutar. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | El estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | El tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especifica la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| filterSql | Un fragmento de instrucción SQL de Hive que filtra una subred de datos de DynamoDB o Amazon S3 que copiar. El filtro solo debe contener predicados y no empezar por una WHERE cláusula, ya que la AWS Data Pipeline agrega automáticamente. | Cadena | 
| input | El origen de datos de entrada. Debe ser S3DataNode o DynamoDBDataNode. Si usa DynamoDBNode, especifique DynamoDBExportDataFormat. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | El origen de datos de salida. Si la entrada es S3DataNode, este debe ser DynamoDBDataNode. De lo contrario, este puede ser S3DataNode o DynamoDBDataNode. Si usa DynamoDBNode, especifique DynamoDBExportDataFormat. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | El elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de Amazon S3 como  's3://BucketName/Key/', para cargar logs para la canalización. | Cadena | 
| postActivityTaskConfig | El script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "postActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | El script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "preActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| precondition | Opcionalmente define una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resizeClusterBeforeCorriendo | Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a los nodos de datos de DynamoDB especificados como entradas o salidas.  Si tu actividad usa un `DynamoDBDataNode` nodo de datos de entrada o de salida, y si lo configuras en`TRUE`, AWS Data Pipeline comienza `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instancias. Se sobrescriben las opciones de tipo de instancia con `m3.xlarge`, lo que podría aumentar los costos mensuales.  | Booleano | 
| resizeClusterMaxInstancias | Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. | Entero | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan un objeto de intento. | Cadena | 

## Véase también
<a name="hivecopyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# PigActivity
<a name="dp-object-pigactivity"></a>

PigActivity proporciona soporte nativo para los scripts de Pig AWS Data Pipeline sin la necesidad de usar `ShellCommandActivity` o`EmrActivity`. Además, PigActivity admite la puesta en escena de datos. Cuando el campo de uso transitorio se establece en true, AWS Data Pipeline almacena de modo transitorio los datos de entrada como un esquema en Pig sin código adicional del usuario. 

## Ejemplo
<a name="pigactivity-example"></a>

En la siguiente canalización de ejemplo se muestra cómo utilizar `PigActivity`. En la canalización de ejemplo se ejecutan los siguientes pasos:
+ MyPigActivity1 carga datos de Amazon S3 y ejecuta un script Pig que selecciona algunas columnas de datos y las carga en Amazon S3.
+ MyPigActivity2 carga la primera salida, selecciona algunas columnas y tres filas de datos y la carga en Amazon S3 como segunda salida.
+ MyPigActivity3 carga los segundos datos de salida, inserta dos filas de datos y solo la columna denominada «quinta» en Amazon RDS.
+ MyPigActivity4 carga los datos de Amazon RDS, selecciona la primera fila de datos y los carga en Amazon S3.

```
{
  "objects": [
    {
      "id": "MyInputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/pigTestInput",
      "name": "MyInputData1",
      "dataFormat": {
        "ref": "MyInputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyPigActivity4",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData3"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path/",
      "name": "MyPigActivity4",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity3"
      },
      "output": {
        "ref": "MyOutputData4"
      },
      "script": "B = LIMIT ${input1} 1; ${output1} = FOREACH B GENERATE one;",
      "stage": "true"
    },
    {
      "id": "MyPigActivity3",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData2"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity3",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "script": "B = LIMIT ${input1} 2; ${output1} = FOREACH B GENERATE Fifth;",
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity2"
      },
      "output": {
        "ref": "MyOutputData3"
      },
      "stage": "true"
    },
    {
      "id": "MyOutputData2",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData2",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput2",
      "dataFormat": {
        "ref": "MyOutputDataType2"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData1",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput1",
      "dataFormat": {
        "ref": "MyOutputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyInputDataType1",
      "name": "MyInputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING",
        "Ninth STRING",
        "Tenth STRING"
      ],
      "inputRegEx": "^(\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+)",
      "type": "RegEx"
    },
    {
      "id": "MyEmrResource",
      "region": "us-east-1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "keyPair": "example-keypair",
      "masterInstanceType": "m1.small",
      "enableDebugging": "true",
      "name": "MyEmrResource",
      "actionOnTaskFailure": "continue",
      "type": "EmrCluster"
    },
    {
      "id": "MyOutputDataType4",
      "name": "MyOutputDataType4",
      "column": "one STRING",
      "type": "CSV"
    },
    {
      "id": "MyOutputData4",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput3",
      "name": "MyOutputData4",
      "dataFormat": {
        "ref": "MyOutputDataType4"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputDataType1",
      "name": "MyOutputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "columnSeparator": "*",
      "type": "Custom"
    },
    {
      "id": "MyOutputData3",
      "username": "___",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "insertQuery": "insert into #{table} (one) values (?)",
      "name": "MyOutputData3",
      "*password": "___",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "connectionString": "jdbc:mysql://example-database-instance:3306/example-database",
      "selectQuery": "select * from #{table}",
      "table": "example-table-name",
      "type": "MySqlDataNode"
    },
    {
      "id": "MyOutputDataType2",
      "name": "MyOutputDataType2",
      "column": [
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "type": "TSV"
    },
    {
      "id": "MyPigActivity2",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity2",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "dependsOn": {
        "ref": "MyPigActivity1"
      },
      "type": "PigActivity",
      "script": "B = LIMIT ${input1} 3; ${output1} = FOREACH B GENERATE Third, Fourth, Fifth, Sixth, Seventh, Eighth;",
      "output": {
        "ref": "MyOutputData2"
      },
      "stage": "true"
    },
    {
      "id": "MyEmrResourcePeriod",
      "startDateTime": "2013-05-20T00:00:00",
      "name": "MyEmrResourcePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "2013-05-21T00:00:00"
    },
    {
      "id": "MyPigActivity1",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyInputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "scriptUri": "s3://amzn-s3-demo-bucket/script/pigTestScipt.q",
      "name": "MyPigActivity1",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "scriptVariable": [
        "column1=First",
        "column2=Second",
        "three=3"
      ],
      "type": "PigActivity",
      "output": {
        "ref": "MyOutputData1"
      },
      "stage": "true"
    }
  ]
}
```

El contenido de `pigTestScript.q` es el siguiente.

```
B = LIMIT ${input1} $three; ${output1} = FOREACH B GENERATE $column1, $column2, Third, Fourth, Fifth, Sixth, Seventh, Eighth;
```

## Sintaxis
<a name="pigactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| script | El script de Pig que se ejecutará. | Cadena | 
| scriptUri | La ubicación del script de Pig que se ejecutará (por ejemplo, s3://scriptLocation). | Cadena | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Clúster EMR en el que se PigActivity ejecuta. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myEmrCluster Id "\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | El estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | El tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especifica la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «dependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| input | El origen de datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | El origen de datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de Amazon S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| postActivityTaskConfig | Script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script del intérprete de comandos en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "postActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "preActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resizeClusterBeforeEn ejecución | Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a los nodos de datos de DynamoDB especificados como entradas o salidas. Si tu actividad usa un `DynamoDBDataNode` nodo de datos de entrada o de salida, y si lo configuras en`TRUE`, AWS Data Pipeline comienza `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instancias. Se sobrescriben las opciones de tipo de instancia con `m3.xlarge`, lo que podría aumentar los costos mensuales.  | Booleano | 
| resizeClusterMaxInstancias | Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. | Entero | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| scriptVariable | Los argumentos que se pasan al script de Pig. Puede usar scriptVariable con script o scriptUri. | Cadena | 
| etapa | Determina si la puesta en escena está habilitada y permite que tu script de Pig tenga acceso a las tablas de datos escalonados, como \$1 \$1INPUT1\$1 y \$1 \$1\$1. OUTPUT1 | Booleano | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» Id "\$1 myRunnableObject | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, cascadeFailedOn «: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="pigactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# RedshiftCopyActivity
<a name="dp-object-redshiftcopyactivity"></a>

Copia datos de DynamoDB o Amazon S3 en Amazon Redshift. Puede cargar datos en una nueva tabla o combinar datos fácilmente en una tabla existente.

A continuación, se muestra información general de un caso de uso en el que utilizar `RedshiftCopyActivity`:

1. Comience por usar AWS Data Pipeline para organizar sus datos en Amazon S3. 

1. Utilice `RedshiftCopyActivity` para mover los datos de Amazon RDS y Amazon EMR a Amazon Redshift.

   Esto le permite cargar sus datos en Amazon Redshift para poder analizarlos.

1. Utilice [SqlActivity](dp-object-sqlactivity.md) para realizar consultas SQL en los datos que ha cargado en Amazon Redshift.

 Además, `RedshiftCopyActivity` le permite trabajar con un `S3DataNode`, dado que admite un archivo de manifiesto. Para obtener más información, consulte [S3 DataNode](dp-object-s3datanode.md).

## Ejemplo
<a name="redshiftcopyactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

Para garantizar la conversión de formatos, este ejemplo utiliza los parámetros de conversión especiales [EMPTYASNULL](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-emptyasnull) e [IGNOREBLANKLINES](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-ignoreblanklines) en `commandOptions`. Para obtener más información, consulte [Parámetros de conversión de datos](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) en la *Guía de desarrollador de base de datos* de Amazon Redshift.

```
{
  "id" : "S3ToRedshiftCopyActivity",
  "type" : "RedshiftCopyActivity",
  "input" : { "ref": "MyS3DataNode" },
  "output" : { "ref": "MyRedshiftDataNode" },
  "insertMode" : "KEEP_EXISTING",
  "schedule" : { "ref": "Hour" },
  "runsOn" : { "ref": "MyEc2Resource" },
  "commandOptions": ["EMPTYASNULL", "IGNOREBLANKLINES"]
}
```

En la siguiente definición de canalización de ejemplo se muestra una actividad que usa el modo de inserción `APPEND`:

```
{
  "objects": [
    {
      "id": "CSVId1",
      "name": "DefaultCSV1",
      "type": "CSV"
    },
    {
      "id": "RedshiftDatabaseId1",
      "databaseName": "dbname",
      "username": "user",
      "name": "DefaultRedshiftDatabase1",
      "*password": "password",
      "type": "RedshiftDatabase",
      "clusterId": "redshiftclusterId"
    },
    {
      "id": "Default",
      "scheduleType": "timeseries",
      "failureAndRerunMode": "CASCADE",
      "name": "Default",
      "role": "DataPipelineDefaultRole",
      "resourceRole": "DataPipelineDefaultResourceRole"
    },
    {
      "id": "RedshiftDataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "tableName": "orders",
      "name": "DefaultRedshiftDataNode1",
      "createTableSql": "create table StructuredLogs (requestBeginTime CHAR(30) PRIMARY KEY DISTKEY SORTKEY, requestEndTime CHAR(30), hostname CHAR(100), requestDate varchar(20));",
      "type": "RedshiftDataNode",
      "database": {
        "ref": "RedshiftDatabaseId1"
      }
    },
    {
      "id": "Ec2ResourceId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "securityGroups": "MySecurityGroup",
      "name": "DefaultEc2Resource1",
      "role": "DataPipelineDefaultRole",
      "logUri": "s3://myLogs",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "type": "Ec2Resource"
    },
    {
      "id": "ScheduleId1",
      "startDateTime": "yyyy-mm-ddT00:00:00",
      "name": "DefaultSchedule1",
      "type": "Schedule",
      "period": "period",
      "endDateTime": "yyyy-mm-ddT00:00:00"
    },
    {
      "id": "S3DataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "filePath": "s3://datapipeline-us-east-1/samples/hive-ads-samples.csv",
      "name": "DefaultS3DataNode1",
      "dataFormat": {
        "ref": "CSVId1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "RedshiftCopyActivityId1",
      "input": {
        "ref": "S3DataNodeId1"
      },
      "schedule": {
        "ref": "ScheduleId1"
      },
      "insertMode": "APPEND",
      "name": "DefaultRedshiftCopyActivity1",
      "runsOn": {
        "ref": "Ec2ResourceId1"
      },
      "type": "RedshiftCopyActivity",
      "output": {
        "ref": "RedshiftDataNodeId1"
      }
    }
  ]
}
```

La operación `APPEND` añade elementos a una tabla independientemente de las claves principales o de ordenación. Por ejemplo, si tiene la tabla siguiente, puede incluir un registro con el mismo valor de usuario e ID.

```
ID(PK)     USER
1          aaa
2          bbb
```

Puede incluir un registro con el mismo valor de usuario e ID:

```
ID(PK)     USER
1          aaa
2          bbb
1          aaa
```

**nota**  
Si una operación `APPEND` se interrumpe y reintenta, la nueva ejecución de la canalización resultante podría iniciar la operación desde el principio. Esto puede ocasionar una duplicación adicional, por lo que debe ser consciente de este comportamiento, especialmente si tiene cualquier lógica que cuente el número de filas.

Para ver un tutorial, consulte [Copie datos a Amazon Redshift mediante AWS Data Pipeline](dp-copydata-redshift.md).

## Sintaxis
<a name="redshiftcopyactivity-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| insertMode |   Determina qué AWS Data Pipeline ocurre con los datos preexistentes de la tabla de destino que se superponen con las filas de los datos que se van a cargar. Los valores válidos son: `KEEP_EXISTING`, `OVERWRITE_EXISTING`, `TRUNCATE` y `APPEND`. `KEEP_EXISTING` añade nuevas filas a la tabla y deja sin modificar las filas existentes. `KEEP_EXISTING` y ` OVERWRITE_EXISTING` utilizan la clave principal, de ordenación y las claves de distribución para identificar qué filas entrantes se corresponden con filas existentes. Consulte [Actualización e inserción de datos nuevos](https://docs.aws.amazon.com/redshift/latest/dg/t_updating-inserting-using-staging-tables-.html) en la *Guía de desarrollador de base de datos* de Amazon Redshift.  `TRUNCATE` elimina todos los datos de la tabla de destino antes de escribir los nuevos datos.  `APPEND` añade todos los registros al final de la tabla de Redshift. `APPEND` no requiere una clave principal, de distribución o de ordenación, por lo que se podrían agregar elementos que pueden ser duplicados.  | Enumeración | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario |  Este objeto se invoca dentro de la ejecución de un intervalo de programación.  Especifique una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto.  En la mayoría de los casos, recomendamos poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. Por ejemplo, puede establecer un programa en el objeto de forma explícita especificando `"schedule": {"ref": "DefaultSchedule"}`.  Si el programa maestro de la canalización contiene programas anidados, cree un objeto principal que tenga una referencia de programación.  Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [Programación](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).   | Objeto de referencia, como por ejemplo: "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| commandOptions |  Toma parámetros para pasar al nodo de datos de Amazon Redshift durante la operación `COPY`. Para más información sobre los parámetros, consulte [COPIAR](https://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html) en la *Guía para desarrolladores de bases de datos* de Amazon Redshift. A medida que carga la tabla, `COPY` intenta convertir de forma implícita las cadenas al tipo de datos de la columna de destino. Además de las conversiones de datos predeterminadas que ocurren automáticamente, si recibe errores o tiene otras necesidades de conversión, puede especificar parámetros de conversión adicionales. Para obtener más información, consulte [Parámetros de conversión de datos](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) en la *Guía de desarrollador de base de datos* de Amazon Redshift. Si un formato de datos está asociado al nodo de datos de entrada o salida, los parámetros proporcionados se omiten.  Dado que la operación de copia utiliza primero `COPY` para insertar los datos en una tabla provisional y, a continuación, utiliza un comando `INSERT` para copiar los datos desde la tabla provisional a la tabla de destino, algunos parámetros `COPY` no se aplican, como la capacidad del comando `COPY` para permitir la compresión automática de la tabla. Si la compresión es necesaria, añada los detalles de codificación de columna a la instrucción `CREATE TABLE`.  Además, en algunos casos en que es necesario descargar datos del clúster de Amazon Redshift y crear archivos en Amazon S3, `RedshiftCopyActivity` se basa en la operación `UNLOAD` de Amazon Redshift. Para mejorar el rendimiento durante la copia y la descarga, especifique el parámetro `PARALLEL OFF` del comando `UNLOAD`. Para obtener más información sobre los parámetros, consulte [DESCARGAR](https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html) en la *Guía de desarrollador de base de datos* de Amazon Redshift.  | Cadena | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia: "dependsOn":\$1"ref":"myActivityId"\$1 | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| input | El nodo de datos de entrada. El origen de datos puede ser Amazon S3, DynamoDB o Amazon Redshift. | Objeto de referencia:  "input":\$1"ref":"myDataNodeId"\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia: "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia:  "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia:  "onSuccess":\$1"ref":"myActionId"\$1 | 
| salida | El nodo de datos de salida. La ubicación de salida puede ser Amazon S3 o Amazon Redshift. | Objeto de referencia:  "output":\$1"ref":"myDataNodeId"\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia: "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia: "precondition":\$1"ref":"myPreconditionId"\$1 | 
| cola |  Se corresponde a la configuración de `query_group ` en Amazon Redshift que le permite asignar y priorizar actividades simultáneas en función de su ubicación en las colas.  Amazon Redshift limita el número de conexiones simultáneas a 15. Para obtener más información, consulte [Asignación de consultas a las colas](https://docs.aws.amazon.com/AmazonRDS/latest/DeveloperGuide/cm-c-executing-queries.html) en la *Guía de desarrollador de base de datos* de Amazon RDS.  | Cadena | 
| reportProgressTimeout |  Tiempo de espera para llamadas sucesivas del trabajo remoto a `reportProgress`.  Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse.  | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType |  Le permite especificar la programación de objetos en su canalización. Los valores son: `cron`, `ondemand` y `timeseries`. La programación `timeseries` significa que las instancias se programan al final de cada intervalo. La programación `Cron` significa que las instancias se programan al principio de cada intervalo.  Un programa `ondemand` le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo.  Para usar canalizaciones `ondemand`, solo tiene que llamar a la operación `ActivatePipeline` para cada ejecución posterior.  Si usa un programa `ondemand`, debe especificarlo en el objeto predeterminado y debe ser el único `scheduleType` especificado para los objetos de la canalización.  | Enumeración | 
| transformSql |  La expresión `SQL SELECT` que se utiliza para transformar los datos de entrada.  Ejecute la expresión `transformSql` en la tabla denominada `staging`.  Cuando se copian datos desde DynamoDB o Amazon S3, AWS Data Pipeline crea una tabla denominada “staging” y carga los datos en ella inicialmente. Los datos de esta tabla se utilizan para actualizar la tabla de destino.  El esquema de salida de `transformSql` debe coincidir con el esquema de la tabla de destino final. Si especifica la opción `transformSql`, se crea una segunda tabla provisional a partir de la instrucción SQL especificada. Los datos de esta segunda tabla staging se actualizan en la tabla de destino final.  | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia: "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia:  "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ Hora healthStatusUpdated | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia:  "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto. Denota su lugar en el ciclo de vida. Por ejemplo, los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

# ShellCommandActivity
<a name="dp-object-shellcommandactivity"></a>

 Ejecuta un comando o script. Puede usar `ShellCommandActivity` para ejecutar tareas programadas de serie temporal o similar a Cron. 

Cuando el campo `stage` se establece en true (verdadero) y se utiliza con un `S3DataNode`, `ShellCommandActivity` admite el concepto de datos transitorios, lo que significa que puede mover datos de Amazon S3 a una ubicación de uso transitorio, como Amazon EC2 o su entorno local, trabajar en los datos mediante scripts y `ShellCommandActivity`, y volver a llevarlos a Amazon S3. 

En este caso, cuando su comando de shell está conectado a un nodo `S3DataNode` de entrada, sus scripts de shell operan directamente en los datos mediante `${INPUT1_STAGING_DIR}`, `${INPUT2_STAGING_DIR}` y otros campos, que hacen referencia a los campos de entrada `ShellCommandActivity`. 

De forma similar, la salida del comando del intérprete de comandos se puede almacenar de modo transitorio en un directorio de salida que se va a insertar automáticamente en Amazon S3, al que hacen referencia `${OUTPUT1_STAGING_DIR}`, `${OUTPUT2_STAGING_DIR}`, etc. 

Estas expresiones pueden pasar como argumentos de línea de comandos al comando de shell para su uso en la lógica de transformación de datos.

`ShellCommandActivity` devuelve cadenas y códigos de error estilo Linux. Si `ShellCommandActivity` genera un error, el `error` devuelto es un valor distinto de cero.

## Ejemplo
<a name="shellcommandactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "command" : "mkdir new-directory"
}
```

## Sintaxis
<a name="shellcommandactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario |  Este objeto se invoca dentro de la ejecución de un intervalo de `schedule`. Para establecer el orden de ejecución de dependencia de este objeto, especifique una referencia `schedule` a otro objeto.  Para cumplir este requisito, establezca de forma explícita un `schedule` en el objeto, por ejemplo, especificando `"schedule": {"ref": "DefaultSchedule"}`.  En la mayoría de los casos, es mejor poner la referencia de `schedule` en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. Si la canalización consta un árbol de programas (programas dentro del programa maestro), cree un objeto principal que tenga una referencia de programa.  Para repartir la carga, AWS Data Pipeline crea objetos físicos un poco antes de lo previsto, pero los ejecuta según lo programado.  Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html)  | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| comando | El comando que se va a ejecutar. Utilice \$1 para hacer referencia a parámetros posicionales y scriptArgument para especificar los parámetros para el comando. Este valor y cualquier parámetro asociado debe funcionar en el entorno desde el que se está ejecutando Task Runner. | Cadena | 
| scriptUri | Una ruta del URI de Amazon S3 para que se descargue un archivo y se ejecute como comando de shell. Especifique solo un campo scriptUri o command. scriptUri no puede utilizar parámetros; utilice command en su lugar. | Cadena | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Los recursos informáticos para ejecutar la actividad o el comando, por ejemplo, una instancia Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | Utilizado para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | El estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | El tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio especificado. | Periodo | 
| dependsOn | Especifica una dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| input | La ubicación de los datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | La ubicación de los datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | El elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de Amazon S3, como 's3://BucketName/Key/' para cargar registros para la canalización. | Cadena | 
| precondition | Opcionalmente define una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas a reportProgress por parte de actividades remotas. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType |  Le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este.  Los valores posibles son: `cron`, `ondemand` y `timeseries`. Si se establece en `timeseries`, las instancias se programan al final de cada intervalo.  Si se establece en `Cron`, las instancias se programan al inicio de cada intervalo.  Si se establece en `ondemand`, puede ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa `ondemand`, especifíquelo en el objeto predeterminado como `scheduleType` único para los objetos de la canalización. Para usar canalizaciones `ondemand`, solo tiene que llamar a la operación `ActivatePipeline` para cada ejecución posterior.   | Enumeración | 
| scriptArgument | Una serie de cadenas con formato JSON que se pasan al comando especificado por el comando. Por ejemplo, si el comando es echo \$11 \$12, especifique scriptArgument como "param1", "param2". Para varios argumentos y parámetros, pase el scriptArgument del siguiente modo: "scriptArgument":"arg1","scriptArgument":"param1","scriptArgument":"arg2","scriptArgument":"param2". El scriptArgument solo se puede utilizar con command; si se utiliza con scriptUri produce un error. | Cadena | 
| etapa | Determina si está habilitado el espacio transitorio y permite que los comandos de shell tengan acceso a las variables de datos en el espacio transitorio, como \$1\$1INPUT1\$1STAGING\$1DIR\$1 y \$1\$1OUTPUT1\$1STAGING\$1DIR\$1. | Booleano | 
| stderr | La ruta que recibe los mensajes de error del sistema redirigidos desde el comando. Si utiliza el campo runsOn, esta debe ser una ruta de Amazon S3 debido a la naturaleza transitoria del recurso que ejecuta su actividad. No obstante, si especifica el campo workerGroup, se permite una ruta de archivo local. | Cadena | 
| stdout | La ruta de Amazon S3 que recibe la salida redirigida del comando. Si utiliza el campo runsOn, esta debe ser una ruta de Amazon S3 debido a la naturaleza transitoria del recurso que ejecuta su actividad. No obstante, si especifica el campo workerGroup, se permite una ruta de archivo local. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | La lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El cancellationReason de este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | La descripción de la cadena de dependencias que provocó el error del objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de Amazon EMR. | Cadena | 
| errorId | El errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que el objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en Amazon EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | El ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | La hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | La hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | La hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | La hora de la ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | La hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | La hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado del objeto. | Cadena | 
| @version | La AWS Data Pipeline versión utilizada para crear el objeto. | Cadena | 
| @waitingOn | La descripción de la lista de dependencias para la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | El error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | El ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | El lugar de un objeto en el ciclo de vida. Los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="shellcommandactivity-seealso"></a>
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# SqlActivity
<a name="dp-object-sqlactivity"></a>

Ejecuta una consulta SQL (script) en una base de datos.

## Ejemplo
<a name="sqlactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "MySqlActivity",
  "type" : "SqlActivity",
  "database" : { "ref": "MyDatabaseID" },
  "script" : "SQLQuery" | "scriptUri" : s3://scriptBucket/query.sql,
  "schedule" : { "ref": "MyScheduleID" },
}
```

## Sintaxis
<a name="sqlactivity-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| database | La base de datos en la que se ejecuta el script SQL suministrado. | Objeto de referencia, por ejemplo, «database»: \$1"ref»:» myDatabaseId «\$1 | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario |  Este objeto se invoca dentro de la ejecución de un intervalo de programación. Debe especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Puede establecer un programa en el objeto de forma explícita, por ejemplo, especificando `"schedule": {"ref": "DefaultSchedule"}`.  En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa.  Si la canalización tiene un árbol de programas anidados dentro del programa maestro, cree un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html)  | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| script | El script SQL que se va a ejecutar. Debe especificar script o scriptUri. Cuando el script se almacena en Amazon S3, script no se evalúa como una expresión. Especificar múltiples valores para scriptArgument es útil cuando el script se almacena en Amazon S3. | Cadena | 
| scriptUri | Un URI que especifica la ubicación de un script de SQL para ejecutar en esta actividad. | Cadena | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| input | Ubicación de los datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El período de tiempo desde el principio del programa de la canalización dentro del cual debe comenzar la ejecución del objeto. | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deberían activarse si un objeto aún no se ha programado o aún no se ha completado en el período transcurrido desde el inicio programado de la canalización, tal como se especifica en 'lateAfterTimeout'. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | Ubicación de los datos de salida. Esto solo es útil para hacer referencia desde un script (por ejemplo\$1\$1output.tablename\$1) y para crear la tabla de salida configurando 'createTableSql' en el nodo de datos de salida. La salida de la consulta SQL no se escribe en el nodo de datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| cola | [Amazon Redshift solamente] Corresponde a la configuración de query\$1group en Amazon Redshift, que le permite asignar y priorizar actividades simultáneas en función de su ubicación en las colas. Amazon Redshift limita el número de conexiones simultáneas a 15. Para obtener más información, consulte [Asignación de consultas a las colas](https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html) en la Guía de desarrollador de base de datos de Amazon Redshift. | Cadena | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType |  El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. Los valores son: `cron`, `ondemand` y `timeseries`.  La programación `timeseries` significa que las instancias se programan al final de cada intervalo. La programación `cron` significa que las instancias se programan al principio de cada intervalo.  Un programa `ondemand` le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa `ondemand`, debe especificarse en el objeto predeterminado y debe ser el único `scheduleType` especificado para los objetos de la canalización. Para usar canalizaciones `ondemand`, solo tiene que llamar a la operación `ActivatePipeline` para cada ejecución posterior.  | Enumeración | 
| scriptArgument | Una lista de variables para el script. También puede colocar expresiones directamente en el campo del script. Especificar múltiples valores para scriptArgument es útil cuando el script se almacena en Amazon S3. Ejemplo: \$1 \$1format (@scheduledStartTime, "YY-MM-DD HH:MM:SS"\$1\$1n\$1 \$1format (PlusPeriod (@scheduledStartTime, «1 día»), "HH:MM:SS"\$1 YY-MM-DD  | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» Id "\$1 myRunnableObject | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 