

AWS Data Pipeline ya no está disponible para nuevos clientes. Los clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. [Más información](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Referencia de objeto de canalización
<a name="dp-pipeline-objects"></a>

Puede usar los siguientes componentes y objetos de canalización en su definición de la canalización.

**Topics**
+ [Nodos de datos](dp-object-datanodes.md)
+ [Actividades](dp-object-activities.md)
+ [Recursos](dp-object-resources.md)
+ [Condiciones previas](dp-object-preconditions.md)
+ [Bases de datos](dp-object-databases.md)
+ [Formatos de los datos](dp-object-dataformats.md)
+ [Acciones](dp-object-actions.md)
+ [Schedule](dp-object-schedule.md)
+ [Utilidades](dp-object-utilities.md)

**nota**  
Para ver un ejemplo de aplicación que usa el SDK de AWS Data Pipeline Java, consulte [Data Pipeline DynamoDB Export Java Sample](https://github.com/awslabs/data-pipeline-samples/tree/master/samples/DynamoDBExportJava) on. GitHub

A continuación se muestra la jerarquía de objetos de. AWS Data Pipeline

![\[AWS Data Pipeline jerarquía de objetos\]](http://docs.aws.amazon.com/es_es/datapipeline/latest/DeveloperGuide/images/object_hierarchy.png)


# Nodos de datos
<a name="dp-object-datanodes"></a>

Los siguientes son los objetos del nodo de AWS Data Pipeline datos:

**Topics**
+ [Nodo Dynamo DBData](dp-object-dynamodbdatanode.md)
+ [MySqlDataNode](dp-object-mysqldatanode.md)
+ [RedshiftDataNode](dp-object-redshiftdatanode.md)
+ [S3 DataNode](dp-object-s3datanode.md)
+ [SqlDataNode](dp-object-sqldatanode.md)

# Nodo Dynamo DBData
<a name="dp-object-dynamodbdatanode"></a>

 Define un nodo de datos utilizando DynamoDB, que se especifica como una entrada a un objeto `HiveActivity` o `EMRActivity`. 

**nota**  
El objeto `DynamoDBDataNode` no admite la condición previa `Exists`.

## Ejemplo
<a name="dynamodbdatanode-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros dos objetos que se definirían en el mismo archivo de definición de canalización. `CopyPeriod` es un objeto `Schedule` y `Ready` es un objeto de condición previa.

```
{
  "id" : "MyDynamoDBTable",
  "type" : "DynamoDBDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "tableName" : "adEvents",
  "precondition" : { "ref" : "Ready" }
}
```

## Sintaxis
<a name="dynamodbdatanode-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| tableName | Tabla de DynamoDB. | Cadena | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [Programación](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece este campo, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dataFormat | DataFormat para los datos descritos por este nodo de datos. Actualmente se admite para HiveActivity y HiveCopyActivity. | Objeto de referencia, «DataFormat»: \$1"ref» DBData FormatId :"MyDynamo «\$1 | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» «\$1 myActivityId | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| readThroughputPercent | Define la velocidad de las operaciones de lectura para mantener la tasa de rendimiento aprovisionada de DynamoDB en el rango asignado para la tabla. El valor es un doble entre 0,1 y 1,0, inclusive. | Double | 
| region | El código para la región en la que se encuentra la tabla de DynamoDB. Por ejemplo, us-east-1. Lo utiliza HiveActivity cuando realiza la puesta en escena de tablas de DynamoDB en Hive. | Enumeración | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 
| writeThroughputPercent | Establece la velocidad de las operaciones de escritura para mantener la tasa de rendimiento aprovisionada de DynamoDB en el rango asignado para la tabla. El valor es un doble entre 0,1 y 1,0, inclusive. | Double | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# MySqlDataNode
<a name="dp-object-mysqldatanode"></a>

 Define un nodo de datos utilizando MySQL. 

**nota**  
El tipo `MySqlDataNode` está obsoleto. Le recomendamos que utilice [SqlDataNode](dp-object-sqldatanode.md) en su lugar.

## Ejemplo
<a name="mysqldatanode-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros dos objetos que se definirían en el mismo archivo de definición de canalización. `CopyPeriod` es un objeto `Schedule` y `Ready` es un objeto de condición previa.

```
{
  "id" : "Sql Table",
  "type" : "MySqlDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "table" : "adEvents",
  "username": "user_name",
  "*password": "my_password",
  "connectionString": "jdbc:mysql://mysqlinstance-rds.example.us-east-1.rds.amazonaws.com:3306/database_name",
  "selectQuery" : "select * from #{table} where eventTime >= '#{@scheduledStartTime.format('YYYY-MM-dd HH:mm:ss')}' and eventTime < '#{@scheduledEndTime.format('YYYY-MM-dd HH:mm:ss')}'",
  "precondition" : { "ref" : "Ready" }
}
```

### Sintaxis
<a name="mysqldatanode-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| tabla | Nombre de la tabla donde está la base de datos MySQL. | Cadena | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| createTableSql | Una expresión SQL CREATE TABLE que crea la tabla. | Cadena | 
| database | El nombre de la base de datos. | Objeto de referencia, por ejemplo, «base de datos»: \$1"ref»:» myDatabaseId «\$1 | 
| dependsOn | Especifica la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «dependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| insertQuery | Una instrucción SQL para insertar datos en la tabla. | Cadena | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| schemaName | El nombre del esquema que tiene la tabla. | Cadena | 
| selectQuery | Una instrucción SQL para recuperar datos de la tabla. | Cadena | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="mysqldatanode-seealso"></a>
+ [S3 DataNode](dp-object-s3datanode.md)

# RedshiftDataNode
<a name="dp-object-redshiftdatanode"></a>

Define un nodo de datos utilizando Amazon Redshift. `RedshiftDataNode` representa las propiedades de los datos de una base de datos como, por ejemplo, una tabla de datos, que utiliza la canalización.

## Ejemplo
<a name="redshiftdatanode-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "MyRedshiftDataNode",
  "type" : "RedshiftDataNode",
  "database": { "ref": "MyRedshiftDatabase" },
  "tableName": "adEvents",
  "schedule": { "ref": "Hour" }
}
```

## Sintaxis
<a name="redshiftdatanode-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| database | La base de datos en la que se encuentra la tabla. | Objeto de referencia, por ejemplo, «database»: \$1"ref»:» myRedshiftDatabase Id "\$1 | 
| tableName | Nombre de la tabla de Amazon Redshift. La tabla se crea si aún no existe y tú la has proporcionado createTableSql. | Cadena | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| createTableSql | Una expresión SQL para crear la tabla en la base de datos. Se recomienda especificar el esquema en el que se debe crear la tabla, por ejemplo: CREATE TABLE mySchema.myTable (bestColumn varchar (25) primary key distkey, integer sortKey). numberOfWins AWS Data Pipeline ejecuta el script en el createTableSql campo si la tabla, especificada por TableName, no existe en el esquema, especificado por el campo SchemaName. Por ejemplo, si especifica SchemaName como mySchema pero no incluye mySchema en el createTableSql campo, la tabla se crea en el esquema incorrecto (de forma predeterminada, se crearía en PUBLIC). Esto ocurre porque AWS Data Pipeline no analiza sus instrucciones CREATE TABLE.  | Cadena | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «dependSon»: \$1"ref»:» «\$1 myActivityId | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| primaryKeys | Si no especifica primaryKeys para una tabla de destino en RedShiftCopyActivity, puede especificar una lista de columnas utilizando primaryKeys, que actuará como mergeKey. Sin embargo, si dispone de un valor de primaryKey definido en una tabla de Amazon Redshift, este ajuste anulará la clave existente. | Cadena | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| schemaName | Este campo opcional especifica el nombre del esquema para la tabla de Amazon Redshift. Si no se especifica, el nombre del esquema es PUBLIC, que es el esquema predeterminado en Amazon Redshift. Para obtener más información, consulte la Guía de desarrollador de base de datos de Amazon Redshift.  | Cadena | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# S3 DataNode
<a name="dp-object-s3datanode"></a>

 Define un nodo de datos utilizando Amazon S3. De forma predeterminada, el S3 DataNode utiliza el cifrado del lado del servidor. Si quieres inhabilitarlo, establece s3 EncryptionType en NONE. 

**nota**  
Al usar `S3DataNode` como entrada a `CopyActivity`, solo se admiten los formatos de datos CSV y TSV.

## Ejemplo
<a name="s3datanode-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otro objeto que se definiría en el mismo archivo de definición de canalización. `CopyPeriod` es un objeto `Schedule`.

```
{
  "id" : "OutputData",
  "type" : "S3DataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "filePath" : "s3://amzn-s3-demo-bucket/#{@scheduledStartTime}.csv"
}
```

## Sintaxis
<a name="s3datanode-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| compression | El tipo de compresión de los datos descrito por el S3DataNode. «none» no significa compresión y «gzip» se comprime con el algoritmo gzip. Este campo solo se admite para su uso con Amazon Redshift y cuando se usa S3 DataNode con. CopyActivity | Enumeración | 
| dataFormat | DataFormat para los datos descritos en este S3DataNode. | Objeto de referencia, por ejemplo, «dataFormat»: \$1"ref»:» myDataFormat Id "\$1 | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| directoryPath | Ruta del directorio Amazon S3 como URI: s3://my-bucket/my-key-for-directory. Debe proporcionar un valor filePath o directoryPath. | Cadena | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| filePath | La ruta al objeto en Amazon S3 como URI, por ejemplo: s3://my-bucket/my-key-for-file. Debe proporcionar un valor filePath o directoryPath. Estos valores representan una carpeta y un nombre de archivo. Use el valor directoryPath para acomodar varios archivos en un directorio. | Cadena | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| manifestFilePath | La ruta de Amazon S3 a un archivo de manifiesto en el formato compatible con Amazon Redshift. AWS Data Pipeline utiliza el archivo de manifiesto para copiar los archivos de Amazon S3 especificados en la tabla. Este campo solo es válido cuando a RedShiftCopyActivity hace referencia al S3DataNode. | Cadena | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| s3 EncryptionType | Sobrescribe el tipo de cifrado de Amazon S3. Los valores son SERVER\$1SIDE\$1ENCRYPTION o NONE. El cifrado en el servidor está habilitado de forma predeterminada.  | Enumeración | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="s3datanode-seealso"></a>
+ [MySqlDataNode](dp-object-mysqldatanode.md)

# SqlDataNode
<a name="dp-object-sqldatanode"></a>

 Define un nodo de datos utilizando SQL. 

## Ejemplo
<a name="example-sql-data-node"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros dos objetos que se definirían en el mismo archivo de definición de canalización. `CopyPeriod` es un objeto `Schedule` y `Ready` es un objeto de condición previa.

```
{
  "id" : "Sql Table",
  "type" : "SqlDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "table" : "adEvents",
  "database":"myDataBaseName",
  "selectQuery" : "select * from #{table} where eventTime >= '#{@scheduledStartTime.format('YYYY-MM-dd HH:mm:ss')}' and eventTime < '#{@scheduledEndTime.format('YYYY-MM-dd HH:mm:ss')}'",
  "precondition" : { "ref" : "Ready" }
}
```

## Sintaxis
<a name="sql-data-node-slots"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| tabla | Nombre de la tabla donde está la base de datos SQL. | Cadena | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| createTableSql | Una expresión SQL CREATE TABLE que crea la tabla. | Cadena | 
| database | El nombre de la base de datos. | Objeto de referencia, por ejemplo, «base de datos»: \$1"ref»:» myDatabaseId «\$1 | 
| dependsOn | Especifica la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «dependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| insertQuery | Una instrucción SQL para insertar datos en la tabla. | Cadena | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| schemaName | El nombre del esquema que tiene la tabla. | Cadena | 
| selectQuery | Una instrucción SQL para recuperar datos de la tabla. | Cadena | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="sql-data-node-see-also"></a>
+ [S3 DataNode](dp-object-s3datanode.md)

# Actividades
<a name="dp-object-activities"></a>

Los objetos de la AWS Data Pipeline actividad son los siguientes:

**Topics**
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [HadoopActivity](dp-object-hadoopactivity.md)
+ [HiveActivity](dp-object-hiveactivity.md)
+ [HiveCopyActivity](dp-object-hivecopyactivity.md)
+ [PigActivity](dp-object-pigactivity.md)
+ [RedshiftCopyActivity](dp-object-redshiftcopyactivity.md)
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [SqlActivity](dp-object-sqlactivity.md)

# CopyActivity
<a name="dp-object-copyactivity"></a>

Copia los datos de una ubicación a otra. `CopyActivity`admite [S3 DataNode](dp-object-s3datanode.md) y [SqlDataNode](dp-object-sqldatanode.md) como entrada y salida y la operación de copia se realiza normalmente record-by-record. Sin embargo, `CopyActivity` proporciona copia de Amazon S3 a Amazon S3 de alto desempeño cuando se cumplen todas las condiciones siguientes:
+ La entrada y la salida son S3 DataNodes
+ El campo `dataFormat` es el mismo para la entrada y la salida

Si proporciona archivos de datos comprimidos como entrada y no lo indica mediante el campo `compression` en los nodos de datos de S3, es posible que `CopyActivity` produzca un error. En este caso, `CopyActivity` no detecta correctamente el carácter de fin de registro y la operación produce un error. Además, `CopyActivity` admite la copia de un directorio a otro y la copia de un archivo a un directorio, pero la record-by-record copia se produce al copiar un directorio a un archivo. Por último, `CopyActivity` no admite la copia de archivos de Amazon S3 multiparte. 

`CopyActivity` tiene limitaciones específicas en cuanto a su compatibilidad con CSV. Cuando usa un S3 DataNode como entrada`CopyActivity`, solo puede usar una Unix/Linux variante del formato de archivo de datos CSV para los campos de entrada y salida de Amazon S3. La Unix/Linux variante requiere lo siguiente: 
+ El separador debe ser el carácter "," (coma).
+ Los registros no se indican entre comillas.
+ El carácter de escape predeterminado es el valor ASCII 92 (barra diagonal invertida).
+ El identificador de fin de registro es el valor ASCII 10 (o "\$1n").

Los sistemas basados en Windows suelen utilizar una secuencia de end-of-record caracteres diferente: un tren de ida y vuelta y una alimentación de línea al mismo tiempo (valor ASCII 13 y valor ASCII 10). Debe adaptarse a esta diferencia con un mecanismo adicional como, por ejemplo, un script previo a la copia para modificar los datos de entrada, a fin de garantizar que `CopyActivity` pueda detectar correctamente el fin de un registro; de lo contrario, `CopyActivity` devuelve error repetidamente.

Al usar `CopyActivity` para exportar desde un objeto RDS de PostgreSQL a un formato de datos TSV, el carácter NULL predeterminado es \$1n.

## Ejemplo
<a name="copyactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros tres objetos que se definirían en el mismo archivo de definición de canalización. `CopyPeriod` es un objeto `Schedule`, y `InputData` y `OutputData` son objetos del nodo de datos.

```
{
  "id" : "S3ToS3Copy",
  "type" : "CopyActivity",
  "schedule" : { "ref" : "CopyPeriod" },
  "input" : { "ref" : "InputData" },
  "output" : { "ref" : "OutputData" },
  "runsOn" : { "ref" : "MyEc2Resource" }
}
```

## Sintaxis
<a name="copyactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente un horario en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| input | El origen de datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | El origen de datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="copyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [Exportación de datos de MySQL a Amazon S3 mediante AWS Data Pipeline](dp-copydata-mysql.md)

# EmrActivity
<a name="dp-object-emractivity"></a>

 Ejecuta un clúster de EMR. 

AWS Data Pipeline utiliza un formato para los pasos diferente al de Amazon EMR; por ejemplo, AWS Data Pipeline utiliza argumentos separados por comas después del nombre JAR en el campo step. `EmrActivity` En el siguiente ejemplo, se muestra un paso formateado para Amazon EMR, seguido de su equivalente para AWS Data Pipeline :

```
s3://amzn-s3-demo-bucket/MyWork.jar arg1 arg2 arg3
```

```
"s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3"
```

## Ejemplos
<a name="emractivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. En este ejemplo se utilizan las versiones anteriores de Amazon EMR. Verifique que este ejemplo es adecuado para la versión del clúster de Amazon EMR que está utilizando. 

Este objeto hace referencia a otros tres objetos que se definirían en el mismo archivo de definición de canalización. `MyEmrCluster` es un objeto `EmrCluster`, y `MyS3Input` y `MyS3Output` son objetos `S3DataNode`. 

**nota**  
En este ejemplo, puede reemplazar el campo `step` por su cadena de clúster deseada, que podría ser un script de Pig, un clúster de Hadoop Streaming, su propio JAR personalizado (incluidos sus parámetros), etc.

Hadoop 2.x (AMI 3.x)

```
{
  "id" : "MyEmrActivity",
  "type" : "EmrActivity",
  "runsOn" : { "ref" : "MyEmrCluster" },
  "preStepCommand" : "scp remoteFiles localFiles",
  "step" : ["s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg,-files,s3://amzn-s3-demo-bucket/myPath/myFile.py,-input,s3://myinputbucket/path,-output,s3://myoutputbucket/path,-mapper,myFile.py,-reducer,reducerName","s3://amzn-s3-demo-bucket/myPath/myotherStep.jar,..."],
  "postStepCommand" : "scp localFiles remoteFiles",
  "input" : { "ref" : "MyS3Input" },
  "output" : { "ref" : "MyS3Output" }
}
```

**nota**  
Para pasar argumentos a una aplicación en un paso, es necesario especificar la región en la ruta del script, como en el siguiente ejemplo. Además, es posible que necesite aplicar escape a los argumentos que transfiere. Por ejemplo, si usa `script-runner.jar` para ejecutar un script de shell y desea transferir argumentos al script, debe aplicar escape a las comas que los separan. En el siguiente slot del paso se ilustra cómo hacerlo:   

```
"step" : "s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://datapipeline/echo.sh,a\\\\,b\\\\,c"
```
Este paso usa `script-runner.jar` para ejecutar el script de shell `echo.sh` y transfiere `a`, `b` y `c` como argumento único al script. El primer carácter de escape se quita del argumento obtenido, por lo que es posible que sea necesario aplicar escape de nuevo. Por ejemplo, si tuviera `File\.gz` como argumento en JSON, podría aplicarle escape mediante `File\\\\.gz`. Sin embargo, debido que el primer escape se ha descartado, debe usar `File\\\\\\\\.gz `.

## Sintaxis
<a name="emractivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Especifique una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Puede cumplir este requisito estableciendo de forma explícita un programa en el objeto, por ejemplo, especificando "schedule": \$1"ref": "DefaultSchedule"\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), puede crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» «\$1 myScheduleId | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El clúster de Amazon EMR en el que se ejecutará este trabajo. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myEmrCluster Id "\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «dependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| input | La ubicación de los datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | La ubicación de los datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | El elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de Amazon S3, como 's3://BucketName/Prefix/ 'para cargar los registros de la canalización. | Cadena | 
| postStepCommand | Scripts de shell que se van a ejecutar después de terminar todos los pasos. Para especificar varios scripts, hasta 255, añada varios campos postStepCommand. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «precondition»: \$1"ref»:» «\$1 myPreconditionId | 
| preStepCommand | Scripts de shell que se van a ejecutar antes de que se ejecute algún paso. Para especificar varios scripts, hasta 255, añada varios campos preStepCommand. | Cadena | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resizeClusterBeforeEn ejecución |  Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a las tablas de DynamoDB especificadas como entradas o salidas.   Si `EmrActivity` usa un `DynamoDBDataNode` nodo de datos de entrada o salida, y si lo establece en`TRUE`, AWS Data Pipeline comienza `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instancia. Se sobrescriben las opciones de tipo de instancia con `m3.xlarge`, lo que podría aumentar los costos mensuales.   | Booleano | 
| resizeClusterMaxInstancias | Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. | Entero | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio o al final del intervalo. Los valores son: cron, ondemand y timeseries. La programación timeseries significa que las instancias se programan al final de cada intervalo. La programación cron significa que las instancias se programan al principio de cada intervalo. Un programa ondemand le permite ejecutar una canalización una vez por activación. No tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa ondemand, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones ondemand, solo tiene que llamar a la operación ActivatePipeline para cada ejecución posterior.  | Enumeración | 
| paso | Uno o varios pasos para que se ejecute el clúster. Para especificar varios pasos, hasta 255, añada varios campos step. Utilice argumentos separados por comas después del nombre de JAR; por ejemplo, "s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3". | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, cascadeFailedOn «: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="emractivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HadoopActivity
<a name="dp-object-hadoopactivity"></a>

 Ejecuta un MapReduce trabajo en un clúster. El clúster puede ser un clúster de EMR administrado por AWS Data Pipeline u otro recurso si lo usa. TaskRunner HadoopActivity Úselo cuando desee ejecutar el trabajo en paralelo. Esto le permite utilizar los recursos de programación del marco YARN o el negociador de MapReduce recursos de Hadoop 1. Si desea ejecutar el trabajo de forma secuencial mediante la acción de paso de Amazon EMR, puede usar [EmrActivity](dp-object-emractivity.md).

## Ejemplos
<a name="hadoopactivity-example"></a>

**HadoopActivity mediante un clúster de EMR gestionado por AWS Data Pipeline**  
El siguiente HadoopActivity objeto utiliza un EmrCluster recurso para ejecutar un programa:

```
 {
   "name": "MyHadoopActivity",
   "schedule": {"ref": "ResourcePeriod"},
   "runsOn": {"ref": “MyEmrCluster”},
   "type": "HadoopActivity",
   "preActivityTaskConfig":{"ref":"preTaskScriptConfig”},   
   "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
   "argument": [
     "-files",
     “s3://elasticmapreduce/samples/wordcount/wordSplitter.py“,
     "-mapper",
     "wordSplitter.py",
     "-reducer",
     "aggregate",
     "-input",
     "s3://elasticmapreduce/samples/wordcount/input/",
     "-output",
     “s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
   ],
   "maximumRetries": "0",
   "postActivityTaskConfig":{"ref":"postTaskScriptConfig”},
   "hadoopQueue" : “high”
 }
```

Esta es la correspondiente*MyEmrCluster*, que configura las colas FairScheduler y en YARN para Hadoop 2: AMIs

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
   "hadoopSchedulerType" : "PARALLEL_FAIR_SCHEDULING",
  “amiVersion” : “3.7.0”,
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\,high\,default,-z,yarn.scheduler.capacity.root.high.capacity=50,-z,yarn.scheduler.capacity.root.low.capacity=10,-z,yarn.scheduler.capacity.root.default.capacity=30”]
}
```

Esto es lo que se usa para configurar en EmrCluster Hadoop 1: FairScheduler 

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",    
      "hadoopSchedulerType": "PARALLEL_FAIR_SCHEDULING",
      "amiVersion": "2.4.8",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-m,mapred.queue.names=low\\\\,high\\\\,default,-m,mapred.fairscheduler.poolnameproperty=mapred.job.queue.name"
          }
```

Las siguientes EmrCluster configuraciones para Hadoop 2 están basadas en Hadoop CapacityScheduler 2: AMIs

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",
      "hadoopSchedulerType": "PARALLEL_CAPACITY_SCHEDULING",
      "amiVersion": "3.7.0",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\\\\,high,-z,yarn.scheduler.capacity.root.high.capacity=40,-z,yarn.scheduler.capacity.root.low.capacity=60"
    }
```

**HadoopActivity usar un clúster de EMR existente**  
En este ejemplo, utiliza grupos de trabajo y TaskRunner a para ejecutar un programa en un clúster de EMR existente. La siguiente definición de canalización se utiliza para: HadoopActivity 
+ Ejecuta un MapReduce programa solo con *myWorkerGroup* recursos. Para obtener más información acerca de los grupos de procesos de trabajo, consulte [Ejecución de trabajo en recursos existentes mediante Task Runner](dp-how-task-runner-user-managed.md).
+ Ejecute un preActivityTask Config and postActivityTask Config

```
{
  "objects": [
    {
      "argument": [
        "-files",
        "s3://elasticmapreduce/samples/wordcount/wordSplitter.py",
        "-mapper",
        "wordSplitter.py",
        "-reducer",
        "aggregate",
        "-input",
        "s3://elasticmapreduce/samples/wordcount/input/",
        "-output",
        "s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
      ],
      "id": "MyHadoopActivity",
      "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
      "name": "MyHadoopActivity",
      "type": "HadoopActivity"
    },
    {
      "id": "SchedulePeriod",
      "startDateTime": "start_datetime",
      "name": "SchedulePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "end_datetime"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/preTaskScript.sh",
      "name": "preTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/postTaskScript.sh",
      "name": "postTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "Default",
      "scheduleType": "cron",
      "schedule": {
        "ref": "SchedulePeriod"
      },
      "name": "Default",
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/logs/2015-05-22T18:02:00.343Z642f3fe415",
      "maximumRetries": "0",    
      "workerGroup": "myWorkerGroup",
      "preActivityTaskConfig": {
        "ref": "preTaskScriptConfig"
      },
      "postActivityTaskConfig": {
        "ref": "postTaskScriptConfig"
      }    
    }
  ] 
}
```

## Sintaxis
<a name="hadoopactivity-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| jarUri | Ubicación de un JAR en Amazon S3 o en el sistema de archivos local del clúster con el que se va a ejecutar HadoopActivity. | Cadena | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Clúster de EMR en el que se ejecutará este trabajo. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myEmrCluster Id "\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y workerGroup existe, se hace caso omiso de workerGroup. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| argumento | Argumentos que se pasan al archivo JAR. | Cadena | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| hadoopQueue | El nombre de cola de programador Hadoop en el que se enviará la actividad. | Cadena | 
| input | Ubicación de los datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| mainClass | La clase principal del JAR con el que estás ejecutando HadoopActivity. | Cadena | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | Ubicación de los datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| postActivityTaskConfig | Script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "postActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "preActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="hadoopactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HiveActivity
<a name="dp-object-hiveactivity"></a>

Ejecuta una consulta de Hive en un clúster de EMR. `HiveActivity` facilita la configuración de una actividad de Amazon EMR y crea automáticamente tablas de Hive basadas en datos de entrada procedentes de Amazon S3 o Amazon RDS. Todo lo que necesita especificar es el HiveQL para que se ejecute en los datos de origen. AWS Data Pipeline crea automáticamente tablas de Hive con `${input1}``${input2}`, etc., en función de los campos de entrada del objeto. `HiveActivity` 

Para las entradas de Amazon S3 el campo `dataFormat` se usa para crear los nombres de las columnas de Hive. 

En las entradas de MySQL (Amazon RDS), los nombres de las columnas para la consulta SQL se utilizan para crear los nombres de las columnas de Hive.

**nota**  
Esta actividad usa [CSV Serde](https://cwiki.apache.org/confluence/display/Hive/CSV+Serde) de Hive.

## Ejemplo
<a name="hiveactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros tres objetos que se definen en el mismo archivo de definición de canalización. `MySchedule` es un objeto `Schedule`, y `MyS3Input` y `MyS3Output` son objetos del nodo de datos.

```
{
  "name" : "ProcessLogData",
  "id" : "MyHiveActivity",
  "type" : "HiveActivity",
  "schedule" : { "ref": "MySchedule" },
  "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};",
  "input" : { "ref": "MyS3Input" },
  "output" : { "ref": "MyS3Output" },
  "runsOn" : { "ref": "MyEmrCluster" }
}
```

## Sintaxis
<a name="hiveactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Especifique una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Puede cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), puede crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| hiveScript | El script de Hive que se ejecutará. | Cadena | 
| scriptUri | La ubicación del script de Hive que se ejecutará (por ejemplo, s3://scriptLocation). | Cadena | 

 


****  

| Grupo obligatorio | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El clúster de EMR en el que se ejecuta HiveActivity. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myEmrCluster Id "\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 
| input | El origen de datos de entrada. | Objeto de referencia, como «input»: \$1"ref»:» myDataNode Id "\$1 | 
| salida | El origen de datos de salida. | Objeto de referencia, como «output»: \$1"ref»:» myDataNode Id "\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, como «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| hadoopQueue | El nombre de cola de programador Hadoop en el que se enviará el trabajo. | Cadena | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, como «OnFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, como "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, como «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, como «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| postActivityTaskConfig | Script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, como "postActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, como "preActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, como «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resizeClusterBeforeEn ejecución | Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a los nodos de datos de DynamoDB especificados como entradas o salidas.  Si tu actividad usa un `DynamoDBDataNode` nodo de datos de entrada o de salida, y si lo configuras en`TRUE`, AWS Data Pipeline comienza `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instancias. Se sobrescriben las opciones de tipo de instancia con `m3.xlarge`, lo que podría aumentar los costos mensuales.  | Booleano | 
| resizeClusterMaxInstancias | Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. | Entero | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| scriptVariable | Especifica variables de script para que Amazon EMR se pase a Hive al ejecutar un script. Por ejemplo, las siguientes variables de script de ejemplo pasarían una variable SAMPLE y FILTER\$1DATE a Hive: SAMPLE=s3://elasticmapreduce/samples/hive-ads y  FILTER\$1DATE=\$1\$1format(@scheduledStartTime,'YYYY-MM-dd')\$1%. Este campo acepta varios valores y funciona con los campos script y scriptUri. Además, scriptVariable funciona independientemente de si stage se establece en true o false. Este campo es especialmente útil para enviar valores dinámicos a Hive mediante expresiones y funciones de AWS Data Pipeline . | Cadena | 
| etapa | Determina si el uso transitorio se habilita antes o después de la ejecución del script. No se permite con Hive 11, de modo que use una versión 3.2.0 o superior de AMI de Amazon EMR. | Booleano | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, como «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, como cascadeFailedOn «: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada de un objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada de un objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, como «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="hiveactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# HiveCopyActivity
<a name="dp-object-hivecopyactivity"></a>

Ejecuta una consulta de Hive en un clúster de EMR. `HiveCopyActivity` facilita la copia de datos entre las tablas de DynamoDB. `HiveCopyActivity` acepta una instrucción de HiveQL para filtrar datos de entrada desde DynamoDB en el nivel de columna y de fila.

## Ejemplo
<a name="hivecopyactivity-example"></a>

En el siguiente ejemplo se muestra cómo usar `HiveCopyActivity` y `DynamoDBExportDataFormat` para copiar datos de un nodo `DynamoDBDataNode` a otro, mientras se filtran datos, en función de una marca temporal.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Sintaxis
<a name="hivecopyactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Especifique el clúster en el que ejecutar. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | El estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | El tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especifica la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| filterSql | Un fragmento de instrucción SQL de Hive que filtra una subred de datos de DynamoDB o Amazon S3 que copiar. El filtro solo debe contener predicados y no empezar por una WHERE cláusula, ya que la AWS Data Pipeline agrega automáticamente. | Cadena | 
| input | El origen de datos de entrada. Debe ser S3DataNode o DynamoDBDataNode. Si usa DynamoDBNode, especifique DynamoDBExportDataFormat. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | El origen de datos de salida. Si la entrada es S3DataNode, este debe ser DynamoDBDataNode. De lo contrario, este puede ser S3DataNode o DynamoDBDataNode. Si usa DynamoDBNode, especifique DynamoDBExportDataFormat. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | El elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de Amazon S3 como  's3://BucketName/Key/', para cargar logs para la canalización. | Cadena | 
| postActivityTaskConfig | El script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "postActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | El script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "preActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| precondition | Opcionalmente define una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resizeClusterBeforeCorriendo | Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a los nodos de datos de DynamoDB especificados como entradas o salidas.  Si tu actividad usa un `DynamoDBDataNode` nodo de datos de entrada o de salida, y si lo configuras en`TRUE`, AWS Data Pipeline comienza `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instancias. Se sobrescriben las opciones de tipo de instancia con `m3.xlarge`, lo que podría aumentar los costos mensuales.  | Booleano | 
| resizeClusterMaxInstancias | Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. | Entero | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan un objeto de intento. | Cadena | 

## Véase también
<a name="hivecopyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# PigActivity
<a name="dp-object-pigactivity"></a>

PigActivity proporciona soporte nativo para los scripts de Pig AWS Data Pipeline sin la necesidad de usar `ShellCommandActivity` o`EmrActivity`. Además, PigActivity admite la puesta en escena de datos. Cuando el campo de uso transitorio se establece en true, AWS Data Pipeline almacena de modo transitorio los datos de entrada como un esquema en Pig sin código adicional del usuario. 

## Ejemplo
<a name="pigactivity-example"></a>

En la siguiente canalización de ejemplo se muestra cómo utilizar `PigActivity`. En la canalización de ejemplo se ejecutan los siguientes pasos:
+ MyPigActivity1 carga datos de Amazon S3 y ejecuta un script Pig que selecciona algunas columnas de datos y las carga en Amazon S3.
+ MyPigActivity2 carga la primera salida, selecciona algunas columnas y tres filas de datos y la carga en Amazon S3 como segunda salida.
+ MyPigActivity3 carga los segundos datos de salida, inserta dos filas de datos y solo la columna denominada «quinta» en Amazon RDS.
+ MyPigActivity4 carga los datos de Amazon RDS, selecciona la primera fila de datos y los carga en Amazon S3.

```
{
  "objects": [
    {
      "id": "MyInputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/pigTestInput",
      "name": "MyInputData1",
      "dataFormat": {
        "ref": "MyInputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyPigActivity4",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData3"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path/",
      "name": "MyPigActivity4",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity3"
      },
      "output": {
        "ref": "MyOutputData4"
      },
      "script": "B = LIMIT ${input1} 1; ${output1} = FOREACH B GENERATE one;",
      "stage": "true"
    },
    {
      "id": "MyPigActivity3",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData2"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity3",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "script": "B = LIMIT ${input1} 2; ${output1} = FOREACH B GENERATE Fifth;",
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity2"
      },
      "output": {
        "ref": "MyOutputData3"
      },
      "stage": "true"
    },
    {
      "id": "MyOutputData2",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData2",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput2",
      "dataFormat": {
        "ref": "MyOutputDataType2"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData1",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput1",
      "dataFormat": {
        "ref": "MyOutputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyInputDataType1",
      "name": "MyInputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING",
        "Ninth STRING",
        "Tenth STRING"
      ],
      "inputRegEx": "^(\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+)",
      "type": "RegEx"
    },
    {
      "id": "MyEmrResource",
      "region": "us-east-1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "keyPair": "example-keypair",
      "masterInstanceType": "m1.small",
      "enableDebugging": "true",
      "name": "MyEmrResource",
      "actionOnTaskFailure": "continue",
      "type": "EmrCluster"
    },
    {
      "id": "MyOutputDataType4",
      "name": "MyOutputDataType4",
      "column": "one STRING",
      "type": "CSV"
    },
    {
      "id": "MyOutputData4",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput3",
      "name": "MyOutputData4",
      "dataFormat": {
        "ref": "MyOutputDataType4"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputDataType1",
      "name": "MyOutputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "columnSeparator": "*",
      "type": "Custom"
    },
    {
      "id": "MyOutputData3",
      "username": "___",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "insertQuery": "insert into #{table} (one) values (?)",
      "name": "MyOutputData3",
      "*password": "___",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "connectionString": "jdbc:mysql://example-database-instance:3306/example-database",
      "selectQuery": "select * from #{table}",
      "table": "example-table-name",
      "type": "MySqlDataNode"
    },
    {
      "id": "MyOutputDataType2",
      "name": "MyOutputDataType2",
      "column": [
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "type": "TSV"
    },
    {
      "id": "MyPigActivity2",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity2",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "dependsOn": {
        "ref": "MyPigActivity1"
      },
      "type": "PigActivity",
      "script": "B = LIMIT ${input1} 3; ${output1} = FOREACH B GENERATE Third, Fourth, Fifth, Sixth, Seventh, Eighth;",
      "output": {
        "ref": "MyOutputData2"
      },
      "stage": "true"
    },
    {
      "id": "MyEmrResourcePeriod",
      "startDateTime": "2013-05-20T00:00:00",
      "name": "MyEmrResourcePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "2013-05-21T00:00:00"
    },
    {
      "id": "MyPigActivity1",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyInputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "scriptUri": "s3://amzn-s3-demo-bucket/script/pigTestScipt.q",
      "name": "MyPigActivity1",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "scriptVariable": [
        "column1=First",
        "column2=Second",
        "three=3"
      ],
      "type": "PigActivity",
      "output": {
        "ref": "MyOutputData1"
      },
      "stage": "true"
    }
  ]
}
```

El contenido de `pigTestScript.q` es el siguiente.

```
B = LIMIT ${input1} $three; ${output1} = FOREACH B GENERATE $column1, $column2, Third, Fourth, Fifth, Sixth, Seventh, Eighth;
```

## Sintaxis
<a name="pigactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Los usuarios deben especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Los usuarios pueden cumplir este requisito estableciendo explícitamente una programación en el objeto, por ejemplo, especificando «schedule»: \$1"ref»: "DefaultSchedule«\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), los usuarios pueden crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| script | El script de Pig que se ejecutará. | Cadena | 
| scriptUri | La ubicación del script de Pig que se ejecutará (por ejemplo, s3://scriptLocation). | Cadena | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Clúster EMR en el que se PigActivity ejecuta. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myEmrCluster Id "\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | El estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | El tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especifica la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «dependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| input | El origen de datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | El origen de datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de Amazon S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| postActivityTaskConfig | Script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script del intérprete de comandos en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "postActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. | Objeto de referencia, por ejemplo, "preActivityTaskConfig»: \$1"ref»:» myShellScript ConfigId «\$1 | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resizeClusterBeforeEn ejecución | Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a los nodos de datos de DynamoDB especificados como entradas o salidas. Si tu actividad usa un `DynamoDBDataNode` nodo de datos de entrada o de salida, y si lo configuras en`TRUE`, AWS Data Pipeline comienza `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instancias. Se sobrescriben las opciones de tipo de instancia con `m3.xlarge`, lo que podría aumentar los costos mensuales.  | Booleano | 
| resizeClusterMaxInstancias | Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. | Entero | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, basta con llamar a la ActivatePipeline operación para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. | Enumeración | 
| scriptVariable | Los argumentos que se pasan al script de Pig. Puede usar scriptVariable con script o scriptUri. | Cadena | 
| etapa | Determina si la puesta en escena está habilitada y permite que tu script de Pig tenga acceso a las tablas de datos escalonados, como \$1 \$1INPUT1\$1 y \$1 \$1\$1. OUTPUT1 | Booleano | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» Id "\$1 myRunnableObject | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, cascadeFailedOn «: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="pigactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# RedshiftCopyActivity
<a name="dp-object-redshiftcopyactivity"></a>

Copia datos de DynamoDB o Amazon S3 en Amazon Redshift. Puede cargar datos en una nueva tabla o combinar datos fácilmente en una tabla existente.

A continuación, se muestra información general de un caso de uso en el que utilizar `RedshiftCopyActivity`:

1. Comience por usar AWS Data Pipeline para organizar sus datos en Amazon S3. 

1. Utilice `RedshiftCopyActivity` para mover los datos de Amazon RDS y Amazon EMR a Amazon Redshift.

   Esto le permite cargar sus datos en Amazon Redshift para poder analizarlos.

1. Utilice [SqlActivity](dp-object-sqlactivity.md) para realizar consultas SQL en los datos que ha cargado en Amazon Redshift.

 Además, `RedshiftCopyActivity` le permite trabajar con un `S3DataNode`, dado que admite un archivo de manifiesto. Para obtener más información, consulte [S3 DataNode](dp-object-s3datanode.md).

## Ejemplo
<a name="redshiftcopyactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

Para garantizar la conversión de formatos, este ejemplo utiliza los parámetros de conversión especiales [EMPTYASNULL](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-emptyasnull) e [IGNOREBLANKLINES](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-ignoreblanklines) en `commandOptions`. Para obtener más información, consulte [Parámetros de conversión de datos](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) en la *Guía de desarrollador de base de datos* de Amazon Redshift.

```
{
  "id" : "S3ToRedshiftCopyActivity",
  "type" : "RedshiftCopyActivity",
  "input" : { "ref": "MyS3DataNode" },
  "output" : { "ref": "MyRedshiftDataNode" },
  "insertMode" : "KEEP_EXISTING",
  "schedule" : { "ref": "Hour" },
  "runsOn" : { "ref": "MyEc2Resource" },
  "commandOptions": ["EMPTYASNULL", "IGNOREBLANKLINES"]
}
```

En la siguiente definición de canalización de ejemplo se muestra una actividad que usa el modo de inserción `APPEND`:

```
{
  "objects": [
    {
      "id": "CSVId1",
      "name": "DefaultCSV1",
      "type": "CSV"
    },
    {
      "id": "RedshiftDatabaseId1",
      "databaseName": "dbname",
      "username": "user",
      "name": "DefaultRedshiftDatabase1",
      "*password": "password",
      "type": "RedshiftDatabase",
      "clusterId": "redshiftclusterId"
    },
    {
      "id": "Default",
      "scheduleType": "timeseries",
      "failureAndRerunMode": "CASCADE",
      "name": "Default",
      "role": "DataPipelineDefaultRole",
      "resourceRole": "DataPipelineDefaultResourceRole"
    },
    {
      "id": "RedshiftDataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "tableName": "orders",
      "name": "DefaultRedshiftDataNode1",
      "createTableSql": "create table StructuredLogs (requestBeginTime CHAR(30) PRIMARY KEY DISTKEY SORTKEY, requestEndTime CHAR(30), hostname CHAR(100), requestDate varchar(20));",
      "type": "RedshiftDataNode",
      "database": {
        "ref": "RedshiftDatabaseId1"
      }
    },
    {
      "id": "Ec2ResourceId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "securityGroups": "MySecurityGroup",
      "name": "DefaultEc2Resource1",
      "role": "DataPipelineDefaultRole",
      "logUri": "s3://myLogs",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "type": "Ec2Resource"
    },
    {
      "id": "ScheduleId1",
      "startDateTime": "yyyy-mm-ddT00:00:00",
      "name": "DefaultSchedule1",
      "type": "Schedule",
      "period": "period",
      "endDateTime": "yyyy-mm-ddT00:00:00"
    },
    {
      "id": "S3DataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "filePath": "s3://datapipeline-us-east-1/samples/hive-ads-samples.csv",
      "name": "DefaultS3DataNode1",
      "dataFormat": {
        "ref": "CSVId1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "RedshiftCopyActivityId1",
      "input": {
        "ref": "S3DataNodeId1"
      },
      "schedule": {
        "ref": "ScheduleId1"
      },
      "insertMode": "APPEND",
      "name": "DefaultRedshiftCopyActivity1",
      "runsOn": {
        "ref": "Ec2ResourceId1"
      },
      "type": "RedshiftCopyActivity",
      "output": {
        "ref": "RedshiftDataNodeId1"
      }
    }
  ]
}
```

La operación `APPEND` añade elementos a una tabla independientemente de las claves principales o de ordenación. Por ejemplo, si tiene la tabla siguiente, puede incluir un registro con el mismo valor de usuario e ID.

```
ID(PK)     USER
1          aaa
2          bbb
```

Puede incluir un registro con el mismo valor de usuario e ID:

```
ID(PK)     USER
1          aaa
2          bbb
1          aaa
```

**nota**  
Si una operación `APPEND` se interrumpe y reintenta, la nueva ejecución de la canalización resultante podría iniciar la operación desde el principio. Esto puede ocasionar una duplicación adicional, por lo que debe ser consciente de este comportamiento, especialmente si tiene cualquier lógica que cuente el número de filas.

Para ver un tutorial, consulte [Copie datos a Amazon Redshift mediante AWS Data Pipeline](dp-copydata-redshift.md).

## Sintaxis
<a name="redshiftcopyactivity-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| insertMode |   Determina qué AWS Data Pipeline ocurre con los datos preexistentes de la tabla de destino que se superponen con las filas de los datos que se van a cargar. Los valores válidos son: `KEEP_EXISTING`, `OVERWRITE_EXISTING`, `TRUNCATE` y `APPEND`. `KEEP_EXISTING` añade nuevas filas a la tabla y deja sin modificar las filas existentes. `KEEP_EXISTING` y ` OVERWRITE_EXISTING` utilizan la clave principal, de ordenación y las claves de distribución para identificar qué filas entrantes se corresponden con filas existentes. Consulte [Actualización e inserción de datos nuevos](https://docs.aws.amazon.com/redshift/latest/dg/t_updating-inserting-using-staging-tables-.html) en la *Guía de desarrollador de base de datos* de Amazon Redshift.  `TRUNCATE` elimina todos los datos de la tabla de destino antes de escribir los nuevos datos.  `APPEND` añade todos los registros al final de la tabla de Redshift. `APPEND` no requiere una clave principal, de distribución o de ordenación, por lo que se podrían agregar elementos que pueden ser duplicados.  | Enumeración | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario |  Este objeto se invoca dentro de la ejecución de un intervalo de programación.  Especifique una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto.  En la mayoría de los casos, recomendamos poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. Por ejemplo, puede establecer un programa en el objeto de forma explícita especificando `"schedule": {"ref": "DefaultSchedule"}`.  Si el programa maestro de la canalización contiene programas anidados, cree un objeto principal que tenga una referencia de programación.  Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [Programación](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).   | Objeto de referencia, como por ejemplo: "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| commandOptions |  Toma parámetros para pasar al nodo de datos de Amazon Redshift durante la operación `COPY`. Para más información sobre los parámetros, consulte [COPIAR](https://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html) en la *Guía para desarrolladores de bases de datos* de Amazon Redshift. A medida que carga la tabla, `COPY` intenta convertir de forma implícita las cadenas al tipo de datos de la columna de destino. Además de las conversiones de datos predeterminadas que ocurren automáticamente, si recibe errores o tiene otras necesidades de conversión, puede especificar parámetros de conversión adicionales. Para obtener más información, consulte [Parámetros de conversión de datos](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) en la *Guía de desarrollador de base de datos* de Amazon Redshift. Si un formato de datos está asociado al nodo de datos de entrada o salida, los parámetros proporcionados se omiten.  Dado que la operación de copia utiliza primero `COPY` para insertar los datos en una tabla provisional y, a continuación, utiliza un comando `INSERT` para copiar los datos desde la tabla provisional a la tabla de destino, algunos parámetros `COPY` no se aplican, como la capacidad del comando `COPY` para permitir la compresión automática de la tabla. Si la compresión es necesaria, añada los detalles de codificación de columna a la instrucción `CREATE TABLE`.  Además, en algunos casos en que es necesario descargar datos del clúster de Amazon Redshift y crear archivos en Amazon S3, `RedshiftCopyActivity` se basa en la operación `UNLOAD` de Amazon Redshift. Para mejorar el rendimiento durante la copia y la descarga, especifique el parámetro `PARALLEL OFF` del comando `UNLOAD`. Para obtener más información sobre los parámetros, consulte [DESCARGAR](https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html) en la *Guía de desarrollador de base de datos* de Amazon Redshift.  | Cadena | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia: "dependsOn":\$1"ref":"myActivityId"\$1 | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| input | El nodo de datos de entrada. El origen de datos puede ser Amazon S3, DynamoDB o Amazon Redshift. | Objeto de referencia:  "input":\$1"ref":"myDataNodeId"\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia: "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia:  "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia:  "onSuccess":\$1"ref":"myActionId"\$1 | 
| salida | El nodo de datos de salida. La ubicación de salida puede ser Amazon S3 o Amazon Redshift. | Objeto de referencia:  "output":\$1"ref":"myDataNodeId"\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia: "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia: "precondition":\$1"ref":"myPreconditionId"\$1 | 
| cola |  Se corresponde a la configuración de `query_group ` en Amazon Redshift que le permite asignar y priorizar actividades simultáneas en función de su ubicación en las colas.  Amazon Redshift limita el número de conexiones simultáneas a 15. Para obtener más información, consulte [Asignación de consultas a las colas](https://docs.aws.amazon.com/AmazonRDS/latest/DeveloperGuide/cm-c-executing-queries.html) en la *Guía de desarrollador de base de datos* de Amazon RDS.  | Cadena | 
| reportProgressTimeout |  Tiempo de espera para llamadas sucesivas del trabajo remoto a `reportProgress`.  Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse.  | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType |  Le permite especificar la programación de objetos en su canalización. Los valores son: `cron`, `ondemand` y `timeseries`. La programación `timeseries` significa que las instancias se programan al final de cada intervalo. La programación `Cron` significa que las instancias se programan al principio de cada intervalo.  Un programa `ondemand` le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo.  Para usar canalizaciones `ondemand`, solo tiene que llamar a la operación `ActivatePipeline` para cada ejecución posterior.  Si usa un programa `ondemand`, debe especificarlo en el objeto predeterminado y debe ser el único `scheduleType` especificado para los objetos de la canalización.  | Enumeración | 
| transformSql |  La expresión `SQL SELECT` que se utiliza para transformar los datos de entrada.  Ejecute la expresión `transformSql` en la tabla denominada `staging`.  Cuando se copian datos desde DynamoDB o Amazon S3, AWS Data Pipeline crea una tabla denominada “staging” y carga los datos en ella inicialmente. Los datos de esta tabla se utilizan para actualizar la tabla de destino.  El esquema de salida de `transformSql` debe coincidir con el esquema de la tabla de destino final. Si especifica la opción `transformSql`, se crea una segunda tabla provisional a partir de la instrucción SQL especificada. Los datos de esta segunda tabla staging se actualizan en la tabla de destino final.  | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia: "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia:  "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ Hora healthStatusUpdated | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia:  "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto. Denota su lugar en el ciclo de vida. Por ejemplo, los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

# ShellCommandActivity
<a name="dp-object-shellcommandactivity"></a>

 Ejecuta un comando o script. Puede usar `ShellCommandActivity` para ejecutar tareas programadas de serie temporal o similar a Cron. 

Cuando el campo `stage` se establece en true (verdadero) y se utiliza con un `S3DataNode`, `ShellCommandActivity` admite el concepto de datos transitorios, lo que significa que puede mover datos de Amazon S3 a una ubicación de uso transitorio, como Amazon EC2 o su entorno local, trabajar en los datos mediante scripts y `ShellCommandActivity`, y volver a llevarlos a Amazon S3. 

En este caso, cuando su comando de shell está conectado a un nodo `S3DataNode` de entrada, sus scripts de shell operan directamente en los datos mediante `${INPUT1_STAGING_DIR}`, `${INPUT2_STAGING_DIR}` y otros campos, que hacen referencia a los campos de entrada `ShellCommandActivity`. 

De forma similar, la salida del comando del intérprete de comandos se puede almacenar de modo transitorio en un directorio de salida que se va a insertar automáticamente en Amazon S3, al que hacen referencia `${OUTPUT1_STAGING_DIR}`, `${OUTPUT2_STAGING_DIR}`, etc. 

Estas expresiones pueden pasar como argumentos de línea de comandos al comando de shell para su uso en la lógica de transformación de datos.

`ShellCommandActivity` devuelve cadenas y códigos de error estilo Linux. Si `ShellCommandActivity` genera un error, el `error` devuelto es un valor distinto de cero.

## Ejemplo
<a name="shellcommandactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "command" : "mkdir new-directory"
}
```

## Sintaxis
<a name="shellcommandactivity-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario |  Este objeto se invoca dentro de la ejecución de un intervalo de `schedule`. Para establecer el orden de ejecución de dependencia de este objeto, especifique una referencia `schedule` a otro objeto.  Para cumplir este requisito, establezca de forma explícita un `schedule` en el objeto, por ejemplo, especificando `"schedule": {"ref": "DefaultSchedule"}`.  En la mayoría de los casos, es mejor poner la referencia de `schedule` en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. Si la canalización consta un árbol de programas (programas dentro del programa maestro), cree un objeto principal que tenga una referencia de programa.  Para repartir la carga, AWS Data Pipeline crea objetos físicos un poco antes de lo previsto, pero los ejecuta según lo programado.  Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html)  | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| comando | El comando que se va a ejecutar. Utilice \$1 para hacer referencia a parámetros posicionales y scriptArgument para especificar los parámetros para el comando. Este valor y cualquier parámetro asociado debe funcionar en el entorno desde el que se está ejecutando Task Runner. | Cadena | 
| scriptUri | Una ruta del URI de Amazon S3 para que se descargue un archivo y se ejecute como comando de shell. Especifique solo un campo scriptUri o command. scriptUri no puede utilizar parámetros; utilice command en su lugar. | Cadena | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Los recursos informáticos para ejecutar la actividad o el comando, por ejemplo, una instancia Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | Utilizado para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | El estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | El tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio especificado. | Periodo | 
| dependsOn | Especifica una dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| input | La ubicación de los datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | La ubicación de los datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | El elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de Amazon S3, como 's3://BucketName/Key/' para cargar registros para la canalización. | Cadena | 
| precondition | Opcionalmente define una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» myPreconditionId «\$1 | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas a reportProgress por parte de actividades remotas. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType |  Le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este.  Los valores posibles son: `cron`, `ondemand` y `timeseries`. Si se establece en `timeseries`, las instancias se programan al final de cada intervalo.  Si se establece en `Cron`, las instancias se programan al inicio de cada intervalo.  Si se establece en `ondemand`, puede ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa `ondemand`, especifíquelo en el objeto predeterminado como `scheduleType` único para los objetos de la canalización. Para usar canalizaciones `ondemand`, solo tiene que llamar a la operación `ActivatePipeline` para cada ejecución posterior.   | Enumeración | 
| scriptArgument | Una serie de cadenas con formato JSON que se pasan al comando especificado por el comando. Por ejemplo, si el comando es echo \$11 \$12, especifique scriptArgument como "param1", "param2". Para varios argumentos y parámetros, pase el scriptArgument del siguiente modo: "scriptArgument":"arg1","scriptArgument":"param1","scriptArgument":"arg2","scriptArgument":"param2". El scriptArgument solo se puede utilizar con command; si se utiliza con scriptUri produce un error. | Cadena | 
| etapa | Determina si está habilitado el espacio transitorio y permite que los comandos de shell tengan acceso a las variables de datos en el espacio transitorio, como \$1\$1INPUT1\$1STAGING\$1DIR\$1 y \$1\$1OUTPUT1\$1STAGING\$1DIR\$1. | Booleano | 
| stderr | La ruta que recibe los mensajes de error del sistema redirigidos desde el comando. Si utiliza el campo runsOn, esta debe ser una ruta de Amazon S3 debido a la naturaleza transitoria del recurso que ejecuta su actividad. No obstante, si especifica el campo workerGroup, se permite una ruta de archivo local. | Cadena | 
| stdout | La ruta de Amazon S3 que recibe la salida redirigida del comando. Si utiliza el campo runsOn, esta debe ser una ruta de Amazon S3 debido a la naturaleza transitoria del recurso que ejecuta su actividad. No obstante, si especifica el campo workerGroup, se permite una ruta de archivo local. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | La lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El cancellationReason de este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | La descripción de la cadena de dependencias que provocó el error del objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de Amazon EMR. | Cadena | 
| errorId | El errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que el objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en Amazon EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | El ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | La hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | La hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | La hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | La hora de la ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | La hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | La hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado del objeto. | Cadena | 
| @version | La AWS Data Pipeline versión utilizada para crear el objeto. | Cadena | 
| @waitingOn | La descripción de la lista de dependencias para la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | El error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | El ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | El lugar de un objeto en el ciclo de vida. Los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="shellcommandactivity-seealso"></a>
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# SqlActivity
<a name="dp-object-sqlactivity"></a>

Ejecuta una consulta SQL (script) en una base de datos.

## Ejemplo
<a name="sqlactivity-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "MySqlActivity",
  "type" : "SqlActivity",
  "database" : { "ref": "MyDatabaseID" },
  "script" : "SQLQuery" | "scriptUri" : s3://scriptBucket/query.sql,
  "schedule" : { "ref": "MyScheduleID" },
}
```

## Sintaxis
<a name="sqlactivity-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| database | La base de datos en la que se ejecuta el script SQL suministrado. | Objeto de referencia, por ejemplo, «database»: \$1"ref»:» myDatabaseId «\$1 | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario |  Este objeto se invoca dentro de la ejecución de un intervalo de programación. Debe especificar una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Puede establecer un programa en el objeto de forma explícita, por ejemplo, especificando `"schedule": {"ref": "DefaultSchedule"}`.  En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa.  Si la canalización tiene un árbol de programas anidados dentro del programa maestro, cree un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html)  | Objeto de referencia, por ejemplo, «schedule»: \$1"ref»:» myScheduleId «\$1 | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| script | El script SQL que se va a ejecutar. Debe especificar script o scriptUri. Cuando el script se almacena en Amazon S3, script no se evalúa como una expresión. Especificar múltiples valores para scriptArgument es útil cuando el script se almacena en Amazon S3. | Cadena | 
| scriptUri | Un URI que especifica la ubicación de un script de SQL para ejecutar en esta actividad. | Cadena | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| runsOn | El recurso informático para ejecutar la actividad o comando. Por ejemplo, una instancia de Amazon EC2 o un clúster de Amazon EMR. | Objeto de referencia, por ejemplo, «RunSon»: \$1"ref»:» myResourceId «\$1 | 
| workerGroup | El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| dependsOn | Especificar la dependencia de otro objeto ejecutable. | Objeto de referencia, por ejemplo, «DependSon»: \$1"ref»:» myActivityId «\$1 | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| input | Ubicación de los datos de entrada. | Objeto de referencia, por ejemplo, «input»: \$1"ref»:» myDataNode Id "\$1 | 
| lateAfterTimeout | El período de tiempo desde el principio del programa de la canalización dentro del cual debe comenzar la ejecución del objeto. | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deberían activarse si un objeto aún no se ha programado o aún no se ha completado en el período transcurrido desde el inicio programado de la canalización, tal como se especifica en 'lateAfterTimeout'. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| salida | Ubicación de los datos de salida. Esto solo es útil para hacer referencia desde un script (por ejemplo\$1\$1output.tablename\$1) y para crear la tabla de salida configurando 'createTableSql' en el nodo de datos de salida. La salida de la consulta SQL no se escribe en el nodo de datos de salida. | Objeto de referencia, por ejemplo, «output»: \$1"ref»:» myDataNode Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| pipelineLogUri | El URI de S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| precondition | Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. | Objeto de referencia, por ejemplo, «condición previa»: \$1"ref»:» «\$1 myPreconditionId | 
| cola | [Amazon Redshift solamente] Corresponde a la configuración de query\$1group en Amazon Redshift, que le permite asignar y priorizar actividades simultáneas en función de su ubicación en las colas. Amazon Redshift limita el número de conexiones simultáneas a 15. Para obtener más información, consulte [Asignación de consultas a las colas](https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html) en la Guía de desarrollador de base de datos de Amazon Redshift. | Cadena | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scheduleType |  El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. Los valores son: `cron`, `ondemand` y `timeseries`.  La programación `timeseries` significa que las instancias se programan al final de cada intervalo. La programación `cron` significa que las instancias se programan al principio de cada intervalo.  Un programa `ondemand` le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa `ondemand`, debe especificarse en el objeto predeterminado y debe ser el único `scheduleType` especificado para los objetos de la canalización. Para usar canalizaciones `ondemand`, solo tiene que llamar a la operación `ActivatePipeline` para cada ejecución posterior.  | Enumeración | 
| scriptArgument | Una lista de variables para el script. También puede colocar expresiones directamente en el campo del script. Especificar múltiples valores para scriptArgument es útil cuando el script se almacena en Amazon S3. Ejemplo: \$1 \$1format (@scheduledStartTime, "YY-MM-DD HH:MM:SS"\$1\$1n\$1 \$1format (PlusPeriod (@scheduledStartTime, «1 día»), "HH:MM:SS"\$1 YY-MM-DD  | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» Id "\$1 myRunnableObject | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Recursos
<a name="dp-object-resources"></a>

Los siguientes son los objetos de AWS Data Pipeline recursos:

**Topics**
+ [Ec2Resource](dp-object-ec2resource.md)
+ [EmrCluster](dp-object-emrcluster.md)
+ [HttpProxy](dp-object-httpproxy.md)

# Ec2Resource
<a name="dp-object-ec2resource"></a>

Una instancia Amazon EC2 que realiza el trabajo definido por una actividad de canalización.

AWS Data Pipeline ahora es compatible con IMDSv2 para la instancia Amazon EC2, que utiliza un método orientado a la sesión para gestionar mejor la autenticación al recuperar la información de metadatos de las instancias. Una sesión inicia y finaliza una serie de solicitudes que el software que se ejecuta en una instancia de Amazon EC2 utiliza para acceder a los metadatos y las credenciales de la instancia de Amazon EC2 almacenados localmente. El software inicia una sesión con una simple solicitud HTTP PUT a IMDSv2. IMDSv2 devuelve un token secreto al software que se ejecuta en la instancia Amazon EC2, que utilizará el token como contraseña IMDSv2 para realizar solicitudes de metadatos y credenciales.

**nota**  
Para utilizar IMDSv2 en su instancia de Amazon EC2, tendrá que modificar la configuración, ya que la AMI predeterminada no es compatible con ella. IMDSv2 Puede especificar una nueva versión de AMI que puede recuperar mediante el siguiente parámetro SSM: `/aws/service/ami-amazon-linux-latest/amzn-ami-hvm-x86_64-ebs`.

Para obtener información sobre las instancias Amazon EC2 predeterminadas que se AWS Data Pipeline crean si no se especifica una instancia, consulte. [Instancias Amazon EC2 predeterminadas por región de AWS](dp-ec2-default-instance-types.md)

## Ejemplos
<a name="ec2resource-example"></a>

**EC2-Classic**

**importante**  
Solo AWS las cuentas creadas antes del 4 de diciembre de 2013 son compatibles con la plataforma EC2-Classic. Si tiene una de estas cuentas, puede que tenga la opción de crear objetos EC2Resource para una canalización en una red clásica de EC2 en lugar de una VPC. Le recomendamos encarecidamente que cree recursos para todas sus canalizaciones en VPC. Además, si tiene recursos existentes en EC2-Classic, le recomendamos que los migre a una VPC.

El siguiente objeto de ejemplo lanza una instancia EC2 en EC2-Classic, con algunos campos opcionales configurados.

```
{
  "id" : "MyEC2Resource",
  "type" : "Ec2Resource",
  "actionOnTaskFailure" : "terminate",
  "actionOnResourceFailure" : "retryAll",
  "maximumRetries" : "1",
  "instanceType" : "m5.large",
  "securityGroups" : [
    "test-group",
    "default"
  ],
  "keyPair" : "my-key-pair"
}
```

**EC2-VPC**

En el siguiente objeto de ejemplo se ejecuta una instancia EC2 en una VPC no predeterminada, con algunos campos opcionales establecidos.

```
{
  "id" : "MyEC2Resource",
  "type" : "Ec2Resource",
  "actionOnTaskFailure" : "terminate",
  "actionOnResourceFailure" : "retryAll",
  "maximumRetries" : "1",
  "instanceType" : "m5.large",
  "securityGroupIds" : [
    "sg-12345678",
    "sg-12345678"
  ],
  "subnetId": "subnet-12345678",
  "associatePublicIpAddress": "true",
  "keyPair" : "my-key-pair"
}
```

## Sintaxis
<a name="ec2resource-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| resourceRole | El rol de IAM que controla los recursos a los que puede acceder la instancia Amazon EC2. | Cadena | 
| rol | La función de IAM que se AWS Data Pipeline utiliza para crear la instancia EC2. | Cadena | 

 


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario |  Este objeto se invoca dentro de la ejecución de un intervalo de programación.  Para establecer el orden de ejecución de dependencia para este objeto, especifique una referencia de programación a otro objeto. Puedes hacerlo de una de las siguientes formas: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/datapipeline/latest/DeveloperGuide/dp-object-ec2resource.html)  | Objeto de referencia, por ejemplo, "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| actionOnResourceFallo | La acción realizada después de un error de este recurso. Los valores válidos son "retryall" y "retrynone". | Cadena | 
| actionOnTaskFallo | La acción realizada después de un error de tarea de este recurso. Los valores válidos son "continue" o "terminate". | Cadena | 
| associatePublicIpDirección | Indica si se va a asignar una dirección IP pública a la instancia. Si la instancia está en Amazon EC2 o Amazon VPC, el valor predeterminado es true. De lo contrario, el valor predeterminado es false. | Booleano | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio especificado. | Periodo | 
| availabilityZone | La zona de disponibilidad en la que se va a lanzar la instancia Amazon EC2. | Cadena | 
| deshabilitar IMDSv1 | El valor predeterminado es false y habilita tanto IMDSv1 y IMDSv2. Si lo establece en verdadero, se deshabilita IMDSv1 y solo proporciona IMDSv2s | Booleano | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| httpProxy | El host proxy que utilizan los clientes para conectarse a AWS los servicios. | Objeto de referencia, por ejemplo, "httpProxy":\$1"ref":"myHttpProxyId"\$1 | 
| imageId | El ID de la AMI que se va a utilizar para la instancia. De forma predeterminada, AWS Data Pipeline utiliza el tipo de virtualización AMI de HVM. El AMI específico IDs utilizado se basa en una región. Puede sobrescribir la AMI predeterminada especificando la AMI HVM que desee. Para obtener más información acerca de los tipos de AMI, consulte [Tipos de virtualización de una AMI de Linux](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/virtualization_types.html) y [Cómo buscar una AMI de Linux](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/finding-an-ami.html) en la *Guía del usuario de Amazon EC2*.  | Cadena | 
| initTimeout | El tiempo que se debe esperar a que se inicie el recurso.  | Periodo | 
| instanceCount | Obsoleto. | Entero | 
| instanceType | El tipo de instancia de Amazon EC2 que se va a utilizar. | Cadena | 
| keyPair | El nombre del par de claves. Si lanza una instancia Amazon EC2 sin especificar un par de claves, no podrá conectarse a ella. | Cadena | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | El número máximo de intentos en caso de error. | Entero | 
| minInstanceCount | Obsoleto. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo,  "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto no se ha programado o sigue ejecutándose. | Objeto de referencia, por ejemplo, "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, "onSuccess":\$1"ref":"myActionId"\$1 | 
| parent | El elemento principal del objeto actual del que se heredan las ranuras. | Objeto de referencia, por ejemplo, "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | El URI de Amazon S3 (como 's3://BucketName/Key/') para cargar registros para la canalización. | Cadena | 
| region |  El código de la región en la que debe ejecutarse la instancia Amazon EC2. De forma predeterminada, la instancia se ejecuta en la misma región que la canalización. Puede ejecutar la instancia en la misma región que un conjunto de datos dependiente. | Enumeración | 
| reportProgressTimeout | El tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y se reintentarán. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| runAsUser | El usuario que ejecutará el TaskRunner. | Cadena | 
| runsOn | Este campo no está permitido en este objeto. | Objeto de referencia, por ejemplo, "runsOn":\$1"ref":"myResourceId"\$1 | 
| scheduleType |  El tipo de programación le permite especificar si los objetos de la definición de la canalización deben programarse al principio o al final del intervalo, o bajo demanda. Valores son los siguientes: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/datapipeline/latest/DeveloperGuide/dp-object-ec2resource.html)  | Enumeración | 
| securityGroupIds | Los ID de uno o varios grupos de seguridad de Amazon EC2 que se van a utilizar para las instancias del grupo de recursos. | Cadena | 
| securityGroups | Uno o varios grupos de seguridad de Amazon EC2 que se van a utilizar para las instancias del grupo de recursos. | Cadena | 
| spotBidPrice | La cantidad máxima por hora para su instancia de spot en dólares, que es un valor decimal entre 0 y 20,00 (no incluidos). | Cadena | 
| subnetId | El ID de la subred de Amazon EC2 en la que iniciar la instancia. | Cadena | 
| terminateAfter | El número de horas después de las cuales se ha de finalizar el recurso. | Periodo | 
| useOnDemandOnLastAttempt | En el último intento de solicitar una instancia de spot, realice una solicitud de instancias bajo demanda en lugar de instancias de spot. De este modo, se garantiza que si todos los intentos anteriores han fallado, el último intento no se verá interrumpido. | Booleano | 
| workerGroup | Este campo no está permitido en este objeto. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El cancellationReason de este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencias en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | Los registros de pasos solo están disponibles en los intentos de actividad de Amazon EMR. | Cadena | 
| errorId | El ID de error si este objeto ha fallado. | Cadena | 
| errorMessage | El mensaje de error si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @failureReason | El motivo del error del recurso. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades de Amazon EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | La hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | La hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | La versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias para la que este objeto está a la espera. | Objeto de referencia, por ejemplo, "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | El lugar de un objeto en el ciclo de vida. Los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

# EmrCluster
<a name="dp-object-emrcluster"></a>

Representa la configuración de un clúster de Amazon EMR. [EmrActivity](dp-object-emractivity.md) y [HadoopActivity](dp-object-hadoopactivity.md) usan este objeto para lanzar un clúster.

**Topics**
+ [Programadores](#emrcluster-schedulers)
+ [Versiones de lanzamiento de Amazon EMR](#dp-emrcluster-release-versions)
+ [Permisos de Amazon EMR](#w2aac52c17b9c11)
+ [Sintaxis](#emrcluster-syntax)
+ [Ejemplos](emrcluster-example.md)
+ [Véase también](#emrcluster-seealso)

## Programadores
<a name="emrcluster-schedulers"></a>

Los programadores ofrecen un modo de especificar la asignación de recursos y la priorización de trabajo en un clúster de Hadoop. Los administradores o usuarios pueden elegir un programador para diversas clases de usuarios y aplicaciones. Un programador podría usar colas para asignar recursos a usuarios y aplicaciones. Usted configura esas colas al crear el clúster. A continuación, puede configurar la prioridad de determinados tipos de trabajo y usuario sobre otros. Esto proporciona un uso eficaz de los recursos del clúster, a la vez que se permite a más de un usuario enviar trabajo al clúster. Existen tres tipos de programador disponibles:
+ [FairScheduler](https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/FairScheduler.html)— Intenta programar los recursos de manera uniforme durante un período de tiempo significativo.
+ [CapacityScheduler](https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html)— Utiliza colas para permitir a los administradores de clústeres asignar usuarios a colas de diferente prioridad y asignación de recursos. 
+ Predeterminado: usado por el clúster, de cuya configuración podría encargarse su sitio.

## Versiones de lanzamiento de Amazon EMR
<a name="dp-emrcluster-release-versions"></a>

Una versión de Amazon EMR es un conjunto de aplicaciones de código abierto del ecosistema de macrodatos. Cada versión incluye diferentes aplicaciones, componentes y características de macrodatos que selecciona para que Amazon EMR los instale y configure al crear un clúster. La versión se especifica mediante la etiqueta de versión. Las etiquetas de versión tienen el formato `emr-x.x.x` Por ejemplo, `emr-5.30.0`. Clústeres de Amazon EMR basados en la etiqueta de versión`emr-4.0.0` y posteriormente utilizan la propiedad `releaseLabel` para especificar la etiqueta de lanzamiento de un objeto `EmrCluster`. Las versiones anteriores utilizan la propiedad `amiVersion`.

**importante**  
Todos los clústeres de All Amazon EMR creados con la versión 5.22.0 o posterior usan la [firma de Signature Version 4](https://docs.aws.amazon.com/general/latest/gr/signature-version-4.html) para autenticar las solicitudes en Amazon S3. Algunas versiones anteriores usan Signature Version 2. Se está interrumpiendo la compatibilidad con Signature Version 2. Para obtener más información, consulte [Amazon S3 Update — Sigv2 Deprecation Period Extended and Modified (Actualización de Amazon S3: período de desaprobación de Sigv2 extendido y modificado)](https://aws.amazon.com/blogs/aws/amazon-s3-update-sigv2-deprecation-period-extended-modified/). Recomendamos encarecidamente que utilice una versión de Amazon EMR compatible con Signature Version 4. Para versiones anteriores, comenzando con EMR 4.7.x, la versión más reciente de la serie se ha actualizado para admitir Signature Version 4. Cuando utilice una versión anterior de EMR, le recomendamos que utilice la versión más reciente de la serie. Además, evite las versiones anteriores a EMR 4.7.0.

### Condiciones y limitaciones
<a name="dp-emrcluster-considerations"></a>

#### Utilice la última versión de Task Runner
<a name="dp-task-runner-latest"></a>

Si usa un objeto `EmrCluster` autoadministrado con una etiqueta de versión, utilice la Task Runner más actual. Para obtener más información acerca de Task Runner, consulte [Operación de Task Runner](dp-using-task-runner.md). Puede configurar valores de propiedad para todas las clasificaciones de configuración de Amazon EMR. Para obtener más información, consulte [Configuring Applications](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-configure-apps.html) en la *Guía de lanzamiento de Amazon EMR*, las [EmrConfiguration](dp-object-emrconfiguration.md) y las referencias de objeto [Propiedad](dp-object-property.md). 

#### Support para IMDSv2
<a name="dp-emr-imdsv2-support"></a>

Anteriormente, solo AWS Data Pipeline compatible IMDSv1. Ahora, AWS Data Pipeline es compatible con IMDSv2 Amazon EMR 5.23.1, 5.27.1 y 5.32 o versiones posteriores, y Amazon EMR 6.2 o versiones posteriores. IMDSv2 utiliza un método orientado a la sesión para gestionar mejor la autenticación al recuperar la información de metadatos de las instancias. Debes configurar tus instancias para realizar IMDSv2 llamadas mediante la creación de recursos administrados por los usuarios mediante -2.0. TaskRunner

#### Amazon EMR 5.32 o posterior y Amazon EMR 6.x
<a name="dp-emr-6-classpath"></a>

La serie de versiones 5.32 o posteriores y 6.x de Amazon EMR utiliza la versión 3.x de Hadoop, que introdujo cambios importantes en la forma en que se evalúa la ruta de clases de Hadoop en comparación con la versión 2.x de Hadoop. Las bibliotecas más comunes, como Joda-Time, se eliminaron de la ruta de clases.

Si [EmrActivity](dp-object-emractivity.md) o [HadoopActivity](dp-object-hadoopactivity.md) ejecuta un archivo Jar que depende de una biblioteca que se eliminó en Hadoop 3.x, el paso no se realizará correctamente y mostrará el error `java.lang.NoClassDefFoundError` o `java.lang.ClassNotFoundException`. Esto puede ocurrir con los archivos Jar que se ejecutaron sin problemas con las versiones de lanzamiento 5.x de Amazon EMR.

Para solucionar el problema, debe copiar las dependencias del archivo Jar a la ruta de clases de Hadoop de un objeto `EmrCluster` antes de iniciar la actividad `EmrActivity` o `HadoopActivity`. Proporcionamos un script bash para hacerlo. El script bash está disponible en la siguiente ubicación, donde *MyRegion* se encuentra la AWS región en la que se ejecuta el `EmrCluster` objeto, por ejemplo. `us-west-2`

```
s3://datapipeline-MyRegion/MyRegion/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh
```

La forma de ejecutar el script depende de si `EmrActivity` `HadoopActivity` se ejecuta en un recurso administrado por AWS Data Pipeline o se ejecuta en un recurso autogestionado.

Si utiliza un recurso administrado por AWS Data Pipeline, añada un `bootstrapAction` al `EmrCluster` objeto. `bootstrapAction` especifica el script y los archivos Jar que se van a copiar como argumentos. Puede añadir hasta 255 campos `bootstrapAction` por objeto `EmrCluster` y puede añadir un campo `bootstrapAction` a un objeto `EmrCluster` que ya tenga acciones de arranque.

Para especificar este script como una acción de arranque, utilice la siguiente sintaxis, donde `JarFileRegion` es la región en la que se guarda el archivo Jar y cada una *MyJarFile*n** es la ruta absoluta en Amazon S3 de un archivo Jar que se va a copiar en la ruta de clases de Hadoop. No especifique los archivos Jar que estén en la ruta de clases de Hadoop de forma predeterminada.

```
s3://datapipeline-MyRegion/MyRegion/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh,JarFileRegion,MyJarFile1,MyJarFile2[, ...]
```

El siguiente ejemplo especifica una acción de arranque que copia dos archivos Jar en Amazon S3: `my-jar-file.jar` y `emr-dynamodb-tool-4.14.0-jar-with-dependencies.jar`. La región utilizada en el ejemplo es us-west-2.

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m5.xlarge",
  "coreInstanceType" : "m5.xlarge",
  "coreInstanceCount" : "2",
  "taskInstanceType" : "m5.xlarge",
  "taskInstanceCount": "2",
  "bootstrapAction" : ["s3://datapipeline-us-west-2/us-west-2/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh,us-west-2,s3://path/to/my-jar-file.jar,s3://dynamodb-dpl-us-west-2/emr-ddb-storage-handler/4.14.0/emr-dynamodb-tools-4.14.0-jar-with-dependencies.jar"]
}
```

Debe guardar y activar la canalización para que se aplique el cambio a la nueva `bootstrapAction`.

Si utiliza un recurso autogestionado, puede descargar el script en la instancia del clúster y ejecutarlo desde la línea de comandos mediante SSH. El script crea un directorio llamado “`/etc/hadoop/conf/shellprofile.d`” y un archivo llamado “`datapipeline-jars.sh`” en dicho directorio. Los archivos jar proporcionados como argumentos de la línea de comandos se copian en un directorio que el script crea llamado “`/home/hadoop/datapipeline_jars`”. Si el clúster está configurado de forma diferente, modifique el script adecuadamente después de descargarlo.

La sintaxis para ejecutar el script en la línea de comandos es ligeramente diferente a la que se muestra la `bootstrapAction` en el ejemplo anterior. Utilice espacios en lugar de comas entre argumentos, como se muestra en el siguiente ejemplo.

```
./copy-jars-to-hadoop-classpath.sh us-west-2 s3://path/to/my-jar-file.jar s3://dynamodb-dpl-us-west-2/emr-ddb-storage-handler/4.14.0/emr-dynamodb-tools-4.14.0-jar-with-dependencies.jar
```

## Permisos de Amazon EMR
<a name="w2aac52c17b9c11"></a>

Al crear un rol de IAM personalizado, piense detenidamente en los permisos mínimos necesarios para que su clúster realice su trabajo. Asegúrese de conceder acceso a los recursos necesarios, como archivos de Amazon S3 o datos de Amazon RDS, Amazon Redshift o DynamoDB. Si desea establecer `visibleToAllUsers` en False, su rol debe tener los permisos adecuados para hacerlo. Tenga en cuenta que `DataPipelineDefaultRole` no tiene estos permisos. Debe proporcionar una unión de los roles `DefaultDataPipelineResourceRole` y `DataPipelineDefaultRole` como el rol de objeto `EmrCluster` o crear su propio rol con este fin.

## Sintaxis
<a name="emrcluster-syntax"></a>


****  

| Campos de invocación de objetos | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| horario | Este objeto se invoca dentro de la ejecución de un intervalo de programación. Especifique una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Puede cumplir este requisito estableciendo de forma explícita un programa en el objeto, por ejemplo, especificando "schedule": \$1"ref": "DefaultSchedule"\$1. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), puede crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html) | Objeto de referencia, por ejemplo, "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| actionOnResourceError | La acción realizada después de un error de este recurso. Los valores válidos son "retryall", que reintenta todas las tareas en el clúster durante el tiempo especificado y "retrynone". | Cadena | 
| actionOnTaskFallo | La acción realizada después de un error de tarea de este recurso. Los valores válidos son "continue", que significa que no debe terminarse el clúster, y "terminate". | Cadena | 
| additionalMasterSecurityGroupIds | El identificador de los grupos de seguridad maestros adicionales del clúster de EMR, que sigue el formulario sg-01. XXXX6a Para obtener más información, consulte [Grupos de seguridad adicionales de Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-additional-sec-groups.html) en la Guía de administración de Amazon EMR. | Cadena | 
| additionalSlaveSecurityGroupIds | El identificador de los grupos de seguridad secundarios adicionales del clúster de EMR, que sigue el formato sg-01XXXX6a. | Cadena | 
| amiVersion | La versión de Imagen de máquina de Amazon (AMI) que Amazon EMR utiliza para instalar los nodos del clúster. Para obtener más información, consulte la [Guía de administración de Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/). | Cadena | 
| aplicaciones | Aplicaciones para instalar en el clúster con argumentos separados por comas. De forma predeterminada, están instalados Hive y Pig. Este parámetro se aplica solamente a la versión 4.0 y posteriores de Amazon EMR. | Cadena | 
| attemptStatus | El estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| availabilityZone | La zona de disponibilidad en la que ejecutar el clúster. | Cadena | 
| bootstrapAction | Una acción que se ejecuta cuando comienza el clúster. Puede especificar argumentos separados por comas. Para especificar varias acciones, hasta 255, añada varios campos bootstrapAction. El comportamiento predeterminado consiste en comenzar el clúster sin ninguna acción de arranque. | Cadena | 
| configuración | Configuración para el clúster de Amazon EMR. Este parámetro se aplica solamente a la versión 4.0 y posteriores de Amazon EMR. | Objeto de referencia, por ejemplo, "configuration":\$1"ref":"myEmrConfigurationId"\$1 | 
| coreInstanceBidPrecio | El precio de spot máximo que está dispuesto a pagar para instancias Amazon EC2. Si se especifica un precio de puja, Amazon EMR utiliza instancias de spot para el grupo de instancias. Se especifica en USD. | Cadena | 
| coreInstanceCount | El número de nodos principales que se van a utilizar para el clúster. | Entero | 
| coreInstanceType | El tipo de instancia Amazon EC2 que se va a utilizar para los nodos principales. Consulte [Instancias Amazon EC2 admitidas para clústeres de Amazon EMR](dp-emr-supported-instance-types.md). | Cadena | 
| coreGroupConfiguration | La configuración del grupo de instancias principales del clúster de Amazon EMR. Este parámetro se aplica solamente a la versión 4.0 y posteriores de Amazon EMR. | Objeto de referencia, por ejemplo, “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| coreEbsConfiguration | La configuración de los volúmenes de Amazon EBS que se asociarán a cada uno de los nodos principales del grupo principal en el clúster de Amazon EMR. Para obtener más información, consulte [Tipos de instancias compatibles con la optimización de EBS](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) en la Guía del usuario de Amazon EC2. | Objeto de referencia, por ejemplo, “coreEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| customAmiId | Solo se aplica a las versiones 5.7.0 y posteriores de Amazon EMR. Especifica el ID de AMI de una AMI personalizada que se utilizará cuando Amazon EMR aprovisione instancias de Amazon EC2. También se puede usar en lugar de acciones de arranque para personalizar las configuraciones de los nodos del clúster. Para obtener más información, consulte el siguiente tema en la Guía de administración de Amazon EMR. [Uso de una AMI personalizada](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-custom-ami.html) | Cadena | 
| EbsBlockDeviceConfig |  La configuración de un dispositivo de bloques de Amazon EBS solicitado asociado al grupo de instancias. Incluye un determinado número de volúmenes que se asociará a cada instancia del grupo de instancias. Incluye `volumesPerInstance` y `volumeSpecification`, donde:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/datapipeline/latest/DeveloperGuide/dp-object-emrcluster.html)  | Objeto de referencia, por ejemplo, “EbsBlockDeviceConfig”: \$1“ref”: “myEbsBlockDeviceConfig”\$1 | 
| emrManagedMasterSecurityGroupId | El identificador del grupo de seguridad principal del clúster de Amazon EMR, que sigue el formato de sg-01XXXX6a. Para obtener más información, consulte [Configurar grupos de seguridad](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-security-groups.html) en la Guía de administración de Amazon EMR. | Cadena | 
| emrManagedSlaveSecurityGroupId | El identificador del grupo de seguridad secundario del clúster de Amazon EMR, que sigue el formato de sg-01XXXX6a. | Cadena | 
| enableDebugging | Habilita la depuración en el clúster de Amazon EMR. | Cadena | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| hadoopSchedulerType | El tipo de programador del clúster. Los tipos válidos son:  PARALLEL\$1FAIR\$1SCHEDULING, PARALLEL\$1CAPACITY\$1SCHEDULING y  DEFAULT\$1SCHEDULER. | Enumeración | 
| httpProxy | El host proxy que usan los clientes para conectarse a los servicios de AWS. | Objeto de referencia, por ejemplo, «HttpProxy»: \$1"ref»:» myHttpProxy Id "\$1 | 
| initTimeout | El tiempo que se debe esperar a que se inicie el recurso.  | Periodo | 
| keyPair | El par de claves de Amazon EC2 que se utilizará para iniciar sesión en el nodo maestro del clúster de Amazon EMR. | Cadena | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| masterInstanceBidPrecio | El precio de spot máximo que está dispuesto a pagar para instancias Amazon EC2. Un valor decimal entre 0 y 20,00, exclusivo. Se especifica en USD. Al establecer este valor se habilitan las instancias de subasta para el nodo principal del clúster de Amazon EMR. Si se especifica un precio de puja, Amazon EMR utiliza instancias de spot para el grupo de instancias. | Cadena | 
| masterInstanceType | El tipo de instancia Amazon EC2 que se utilizará para el nodo maestro. Consulte [Instancias Amazon EC2 admitidas para clústeres de Amazon EMR](dp-emr-supported-instance-types.md). | Cadena | 
| masterGroupConfiguration | La configuración del grupo de instancias maestro del clúster de Amazon EMR. Este parámetro se aplica solamente a la versión 4.0 y posteriores de Amazon EMR. | Objeto de referencia, por ejemplo, “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| masterEbsConfiguration | La configuración de volúmenes de Amazon EBS que se asociará a cada uno de los nodos principales del grupo maestro en el clúster de Amazon EMR. Para obtener más información, consulte [Tipos de instancias compatibles con la optimización de EBS](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) en la Guía del usuario de Amazon EC2. | Objeto de referencia, por ejemplo, “masterEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| maxActiveInstances | El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. | Entero | 
| maximumRetries | maximumRetries. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, "onSuccess":\$1"ref":"myActionId"\$1 | 
| parent | Elemento principal del objeto actual del que se heredan los slots. | Objeto de referencia, por ejemplo, "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | El URI de Amazon S3 (como 's3://BucketName/Key/ ') para cargar los registros de la canalización. | Cadena | 
| region | El código de la región en la que debe ejecutarse el clúster de Amazon EMR. De forma predeterminada, el clúster se ejecuta en la misma región que la canalización. Puede ejecutar el clúster en la misma región que un conjunto de datos dependiente.  | Enumeración | 
| releaseLabel | Etiqueta de la versión del clúster de EMR. | Cadena | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| resourceRole | La función de IAM que se AWS Data Pipeline utiliza para crear el clúster de Amazon EMR. El rol predeterminado es DataPipelineDefaultRole.  | Cadena | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| rol | El rol de IAM que se transfiere a Amazon EMR para crear nodos de EC2. | Cadena | 
| runsOn | Este campo no está permitido en este objeto. | Objeto de referencia, por ejemplo, "runsOn":\$1"ref":"myResourceId"\$1 | 
| SecurityConfiguration | El identificador de la configuración de seguridad de EMR que se aplicará al clúster. Este parámetro se aplica solamente a la versión 4.8.0 y posteriores de Amazon EMR. | Cadena | 
| serviceAccessSecurityGroupId | El identificador del grupo de seguridad de acceso a los servicios del clúster de Amazon EMR.  | Cadena. Sigue el formato sg-01XXXX6a, por ejemplo, sg-1234abcd. | 
| scheduleType | El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio o al final del intervalo. Los valores son: cron, ondemand y timeseries. La programación timeseries significa que las instancias se programan al final de cada intervalo. La programación cron significa que las instancias se programan al principio de cada intervalo. Un programa ondemand le permite ejecutar una canalización una vez por activación. No tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa ondemand, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones ondemand, solo tiene que llamar a la operación ActivatePipeline para cada ejecución posterior. | Enumeración | 
| subnetId | El identificador de la subred en la que se lanza el clúster de Amazon EMR. | Cadena | 
| supportedProducts | Un parámetro que instala software de terceros en un clúster de Amazon EMR, por ejemplo, una distribución de terceros de Hadoop. | Cadena | 
| taskInstanceBidPrecio | El precio de spot máximo que está dispuesto a pagar para instancias EC2. Un valor decimal entre 0 y 20,00, exclusivo. Se especifica en USD. Si se especifica un precio de puja, Amazon EMR utiliza instancias de spot para el grupo de instancias. | Cadena | 
| taskInstanceCount | El número de nodos de tarea que se van a utilizar para el clúster de Amazon EMR. | Entero | 
| taskInstanceType | El tipo de instancia Amazon EC2 que se va a utilizar para los nodos de tarea. | Cadena | 
| taskGroupConfiguration | La configuración del grupo de instancias de tareas del clúster de Amazon EMR. Este parámetro se aplica solamente a la versión 4.0 y posteriores de Amazon EMR.  | Objeto de referencia, por ejemplo, “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| taskEbsConfiguration | La configuración de los volúmenes de Amazon EBS que se asociarán a cada uno de los nodos de tarea del grupo de tareas en el clúster de Amazon EMR. Para obtener más información, consulte [Tipos de instancias compatibles con la optimización de EBS](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) en la Guía del usuario de Amazon EC2. | Objeto de referencia, por ejemplo, “taskEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| terminateAfter | Termina el recurso una vez transcurridas estas horas. | Entero | 
| VolumeSpecification |   Las especificaciones de volumen de Amazon EBS, por ejemplo, el tipo de volumen, las IOPS y el tamaño en gigabytes (GiB) que se solicitará para el volumen de Amazon EBS asociado a una instancia de Amazon EC2 en el clúster de Amazon EMR. El nodo puede ser un nodo principal, maestro o de tarea.  El `VolumeSpecification` incluye: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/datapipeline/latest/DeveloperGuide/dp-object-emrcluster.html)  | Objeto de referencia, por ejemplo, “VolumeSpecification”: \$1“ref”: “myVolumeSpecification”\$1 | 
| useOnDemandOnLastAttempt | En el último intento de solicitar un recurso, haga una solicitud de instancias bajo demanda en lugar de instancias de spot. De este modo, se garantiza que si todos los intentos anteriores han fallado, el último intento no se verá interrumpido.  | Booleano | 
| workerGroup | Campo no permitido en este objeto. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» Id "\$1 myRunnableObject | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencias en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, cascadeFailedOn «: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Los registros de pasos de Amazon EMR están disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El ID de error si este objeto ha fallado. | Cadena | 
| errorMessage | El mensaje de error si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| @failureReason | El motivo del error del recurso. | Cadena | 
| @finishedTime | La hora a la que este objeto finalizó su ejecución. | DateTime | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades de Amazon EMR. | Cadena | 
| @healthStatus | El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. | Cadena | 
| @healthStatusFromInstanceId | ID del último objeto de instancia que alcanzó un estado terminado. | Cadena | 
| @ healthStatusUpdated Hora | Hora a la que el estado de salud se actualizó la última vez. | DateTime | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| @lastDeactivatedTime | La hora a la que este objeto se desactivó la última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora de la última ejecución para la que se completó la ejecución. | DateTime | 
| @latestRunTime | Hora de la última ejecución para la que se programó la ejecución. | DateTime | 
| @nextRunTime | Hora de ejecución que se va a programar a continuación. | DateTime | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias para la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | El lugar de un objeto en el ciclo de vida. Los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

# Ejemplos
<a name="emrcluster-example"></a>

A continuación se muestran ejemplos de este tipo de objeto.

**Topics**
+ [Lanzar un clúster de Amazon EMR con hadoopVersion](emrcluster-example-launch.md)
+ [Lanzar un clúster de Amazon EMR con la etiqueta de versión emr-4.x o posterior](emrcluster-example-release-label.md)
+ [Instalar software adicional en el clúster de Amazon EMR](emrcluster-example-install-software.md)
+ [deshabilitar el cifrado en el servidor en las versiones 3.x](emrcluster-example1-disable-encryption.md)
+ [deshabilitar el cifrado en el servidor en las versiones 4.x](emrcluster-example2-disable-encryption.md)
+ [Configure Hadoop KMS y cree zonas de cifrado en HDFS ACLs](emrcluster-example-hadoop-kms.md)
+ [especificar roles de IAM personalizados](emrcluster-example-custom-iam-roles.md)
+ [Utilice el EmrCluster recurso en AWS SDK for Java](emrcluster-example-java.md)
+ [Configurar un clúster de Amazon EMR en una subred privada](emrcluster-example-private-subnet.md)
+ [Asociar volúmenes de EBS a los nodos del clúster](emrcluster-example-ebs.md)

# Lanzar un clúster de Amazon EMR con hadoopVersion
<a name="emrcluster-example-launch"></a>

**Example**  <a name="example1"></a>
En el siguiente ejemplo se lanza un clúster de Amazon EMR mediante la versión de AMI 1.0 y Hadoop 0.20.  

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "hadoopVersion" : "0.20",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m3.xlarge",
  "coreInstanceType" : "m3.xlarge",
  "coreInstanceCount" : "10",
  "taskInstanceType" : "m3.xlarge",
  "taskInstanceCount": "10",
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,arg1,arg2,arg3","s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop/configure-other-stuff,arg1,arg2"]
}
```

# Lanzar un clúster de Amazon EMR con la etiqueta de versión emr-4.x o posterior
<a name="emrcluster-example-release-label"></a>

**Example**  
En el siguiente ejemplo se lanza un clúster de Amazon EMR mediante el campo `releaseLabel` más reciente:  

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m3.xlarge",
  "coreInstanceType" : "m3.xlarge",
  "coreInstanceCount" : "10",
  "taskInstanceType" : "m3.xlarge",
  "taskInstanceCount": "10",
  "releaseLabel": "emr-4.1.0",
  "applications": ["spark", "hive", "pig"],
  "configuration": {"ref":"myConfiguration"}  
}
```

# Instalar software adicional en el clúster de Amazon EMR
<a name="emrcluster-example-install-software"></a>

**Example**  <a name="example2"></a>
`EmrCluster` proporciona el campo `supportedProducts` que instala software de terceros en un clúster de Amazon EMR; por ejemplo, permite instalar una distribución personalizada de Hadoop, como MapR. Acepta una lista de argumentos separada por comas para que el software de terceros la lea y actúe. En el siguiente ejemplo se muestra cómo usar el campo `supportedProducts` de `EmrCluster` para crear un clúster de edición MapR M3 personalizada con Karmasphere Analytics instalado y ejecutar un objeto `EmrActivity` en él.  

```
{
    "id": "MyEmrActivity",
    "type": "EmrActivity",
    "schedule": {"ref": "ResourcePeriod"},
    "runsOn": {"ref": "MyEmrCluster"},
    "postStepCommand": "echo Ending job >> /mnt/var/log/stepCommand.txt",    
    "preStepCommand": "echo Starting job > /mnt/var/log/stepCommand.txt",
    "step": "/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3n://elasticmapreduce/samples/wordcount/input,-output, \
     hdfs:///output32113/,-mapper,s3n://elasticmapreduce/samples/wordcount/wordSplitter.py,-reducer,aggregate"
  },
  {    
    "id": "MyEmrCluster",
    "type": "EmrCluster",
    "schedule": {"ref": "ResourcePeriod"},
    "supportedProducts": ["mapr,--edition,m3,--version,1.2,--key1,value1","karmasphere-enterprise-utility"],
    "masterInstanceType": "m3.xlarge",
    "taskInstanceType": "m3.xlarge"
}
```

# deshabilitar el cifrado en el servidor en las versiones 3.x
<a name="emrcluster-example1-disable-encryption"></a>

**Example**  <a name="example3"></a>
Una `EmrCluster` actividad creada con una versión 2.x de Hadoop AWS Data Pipeline habilita el cifrado del lado del servidor de forma predeterminada. Si desea deshabilitar el cifrado en el servidor, debe especificar una acción de arranque en la definición de objeto de clúster.  
En el siguiente ejemplo se crea una actividad `EmrCluster` con el cifrado en el servidor deshabilitado:  

```
{  
   "id":"NoSSEEmrCluster",
   "type":"EmrCluster",
   "hadoopVersion":"2.x",
   "keyPair":"my-key-pair",
   "masterInstanceType":"m3.xlarge",
   "coreInstanceType":"m3.large",
   "coreInstanceCount":"10",
   "taskInstanceType":"m3.large",
   "taskInstanceCount":"10",
   "bootstrapAction":["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-e, fs.s3.enableServerSideEncryption=false"]
}
```

# deshabilitar el cifrado en el servidor en las versiones 4.x
<a name="emrcluster-example2-disable-encryption"></a>

**Example**  <a name="example4"></a>
Debe deshabilitar el cifrado en el servidor mediante un objeto `EmrConfiguration`.  
En el siguiente ejemplo se crea una actividad `EmrCluster` con el cifrado en el servidor deshabilitado:  

```
   {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "myResourceId",
      "type": "EmrCluster",
      "configuration": {
        "ref": "disableSSE"
      }
    },
    {
      "name": "disableSSE",
      "id": "disableSSE",
      "type": "EmrConfiguration",
      "classification": "emrfs-site",
      "property": [{
        "ref": "enableServerSideEncryption"
      }
      ]
    },
    {
      "name": "enableServerSideEncryption",
      "id": "enableServerSideEncryption",
      "type": "Property",
      "key": "fs.s3.enableServerSideEncryption",
      "value": "false"
    }
```

# Configure Hadoop KMS y cree zonas de cifrado en HDFS ACLs
<a name="emrcluster-example-hadoop-kms"></a>

**Example**  <a name="example5"></a>
Los siguientes objetos se crean ACLs para Hadoop KMS y crean zonas de cifrado y las claves de cifrado correspondientes en HDFS:  

```
{
      "name": "kmsAcls",
      "id": "kmsAcls",
      "type": "EmrConfiguration",
      "classification": "hadoop-kms-acls",
      "property": [
        {"ref":"kmsBlacklist"},
        {"ref":"kmsAcl"}
      ]
    },
    {
      "name": "hdfsEncryptionZone",
      "id": "hdfsEncryptionZone",
      "type": "EmrConfiguration",
      "classification": "hdfs-encryption-zones",
      "property": [
        {"ref":"hdfsPath1"},
        {"ref":"hdfsPath2"}
      ]
    },
    {
      "name": "kmsBlacklist",
      "id": "kmsBlacklist",
      "type": "Property",
      "key": "hadoop.kms.blacklist.CREATE",
      "value": "foo,myBannedUser"
    },
    {
      "name": "kmsAcl",
      "id": "kmsAcl",
      "type": "Property",
      "key": "hadoop.kms.acl.ROLLOVER",
      "value": "myAllowedUser"
    },
    {
      "name": "hdfsPath1",
      "id": "hdfsPath1",
      "type": "Property",
      "key": "/myHDFSPath1",
      "value": "path1_key"
    },
    {
      "name": "hdfsPath2",
      "id": "hdfsPath2",
      "type": "Property",
      "key": "/myHDFSPath2",
      "value": "path2_key"
    }
```

# especificar roles de IAM personalizados
<a name="emrcluster-example-custom-iam-roles"></a>

**Example**  <a name="example6"></a>
De forma predeterminada, AWS Data Pipeline pasa a `DataPipelineDefaultRole` ser la función de servicio Amazon EMR y `DataPipelineDefaultResourceRole` el perfil de instancia de Amazon EC2 para crear recursos en su nombre. Sin embargo, puede crear un rol de servicio Amazon EMR personalizado y un perfil de instancia personalizado y usarlos en su lugar. AWS Data Pipeline debe tener permisos suficientes para crear clústeres mediante el rol personalizado y debe añadirlo AWS Data Pipeline como entidad de confianza.  
En el siguiente objeto de ejemplo se especifican los roles personalizados para el clúster de Amazon EMR:  

```
{  
   "id":"MyEmrCluster",
   "type":"EmrCluster",
   "hadoopVersion":"2.x",
   "keyPair":"my-key-pair",
   "masterInstanceType":"m3.xlarge",
   "coreInstanceType":"m3.large",
   "coreInstanceCount":"10",
   "taskInstanceType":"m3.large",
   "taskInstanceCount":"10",
   "role":"emrServiceRole",
   "resourceRole":"emrInstanceProfile"
}
```

# Utilice el EmrCluster recurso en AWS SDK for Java
<a name="emrcluster-example-java"></a>

**Example**  <a name="example7"></a>
En el siguiente ejemplo se muestra cómo usar `EmrCluster` y `EmrActivity` para crear un clúster de Amazon EMR 4.x a fin de ejecutar un paso de Spark mediante el SDK de Java:  

```
public class dataPipelineEmr4 {

  public static void main(String[] args) {
    
	AWSCredentials credentials = null;
	credentials = new ProfileCredentialsProvider("/path/to/AwsCredentials.properties","default").getCredentials();
	DataPipelineClient dp = new DataPipelineClient(credentials);
	CreatePipelineRequest createPipeline = new CreatePipelineRequest().withName("EMR4SDK").withUniqueId("unique");
	CreatePipelineResult createPipelineResult = dp.createPipeline(createPipeline);
	String pipelineId = createPipelineResult.getPipelineId();
    
	PipelineObject emrCluster = new PipelineObject()
	    .withName("EmrClusterObj")
	    .withId("EmrClusterObj")
	    .withFields(
			new Field().withKey("releaseLabel").withStringValue("emr-4.1.0"),
			new Field().withKey("coreInstanceCount").withStringValue("3"),
			new Field().withKey("applications").withStringValue("spark"),
			new Field().withKey("applications").withStringValue("Presto-Sandbox"),
			new Field().withKey("type").withStringValue("EmrCluster"),
			new Field().withKey("keyPair").withStringValue("myKeyName"),
			new Field().withKey("masterInstanceType").withStringValue("m3.xlarge"),
			new Field().withKey("coreInstanceType").withStringValue("m3.xlarge")        
			);
  
	PipelineObject emrActivity = new PipelineObject()
	    .withName("EmrActivityObj")
	    .withId("EmrActivityObj")
	    .withFields(
			new Field().withKey("step").withStringValue("command-runner.jar,spark-submit,--executor-memory,1g,--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/lib/spark-examples.jar,10"),
			new Field().withKey("runsOn").withRefValue("EmrClusterObj"),
			new Field().withKey("type").withStringValue("EmrActivity")
			);
      
	PipelineObject schedule = new PipelineObject()
	    .withName("Every 15 Minutes")
	    .withId("DefaultSchedule")
	    .withFields(
			new Field().withKey("type").withStringValue("Schedule"),
			new Field().withKey("period").withStringValue("15 Minutes"),
			new Field().withKey("startAt").withStringValue("FIRST_ACTIVATION_DATE_TIME")
			);
      
	PipelineObject defaultObject = new PipelineObject()
	    .withName("Default")
	    .withId("Default")
	    .withFields(
			new Field().withKey("failureAndRerunMode").withStringValue("CASCADE"),
			new Field().withKey("schedule").withRefValue("DefaultSchedule"),
			new Field().withKey("resourceRole").withStringValue("DataPipelineDefaultResourceRole"),
			new Field().withKey("role").withStringValue("DataPipelineDefaultRole"),
			new Field().withKey("pipelineLogUri").withStringValue("s3://myLogUri"),
			new Field().withKey("scheduleType").withStringValue("cron")
			);     
      
	List<PipelineObject> pipelineObjects = new ArrayList<PipelineObject>();
    
	pipelineObjects.add(emrActivity);
	pipelineObjects.add(emrCluster);
	pipelineObjects.add(defaultObject);
	pipelineObjects.add(schedule);
    
	PutPipelineDefinitionRequest putPipelineDefintion = new PutPipelineDefinitionRequest()
	    .withPipelineId(pipelineId)
	    .withPipelineObjects(pipelineObjects);
    
	PutPipelineDefinitionResult putPipelineResult = dp.putPipelineDefinition(putPipelineDefintion);
	System.out.println(putPipelineResult);
    
	ActivatePipelineRequest activatePipelineReq = new ActivatePipelineRequest()
	    .withPipelineId(pipelineId);
	ActivatePipelineResult activatePipelineRes = dp.activatePipeline(activatePipelineReq);
	
      System.out.println(activatePipelineRes);
      System.out.println(pipelineId);
    
    }

}
```

# Configurar un clúster de Amazon EMR en una subred privada
<a name="emrcluster-example-private-subnet"></a>

**Example**  <a name="example8"></a>
Este ejemplo incluye una configuración que lanza el clúster en una subred privada en una VPC. Para obtener más información, consulte [Lanzar clústeres de Amazon EMR en una VPC](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-vpc-launching-job-flows.html) en la *Guía de administración de Amazon EMR*. Esta configuración es opcional. Puede utilizarla en cualquier canalización que use un objeto `EmrCluster`.  
Para lanzar un clúster de Amazon EMR en una subred privada, especifique `SubnetId`, `emrManagedMasterSecurityGroupId`, `emrManagedSlaveSecurityGroupId` y `serviceAccessSecurityGroupId` en su configuración `EmrCluster`.  

```
{
  "objects": [
    {
      "output": {
        "ref": "S3BackupLocation"
      },
      "input": {
        "ref": "DDBSourceTable"
      },
      "maximumRetries": "2",
      "name": "TableBackupActivity",
      "step": "s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,#{output.directoryPath},#{input.tableName},#{input.readThroughputPercent}",
      "id": "TableBackupActivity",
      "runsOn": {
        "ref": "EmrClusterForBackup"
      },
      "type": "EmrActivity",
      "resizeClusterBeforeRunning": "false"
    },
    {
      "readThroughputPercent": "#{myDDBReadThroughputRatio}",
      "name": "DDBSourceTable",
      "id": "DDBSourceTable",
      "type": "DynamoDBDataNode",
      "tableName": "#{myDDBTableName}"
    },
    {
      "directoryPath": "#{myOutputS3Loc}/#{format(@scheduledStartTime, 'YYYY-MM-dd-HH-mm-ss')}",
      "name": "S3BackupLocation",
      "id": "S3BackupLocation",
      "type": "S3DataNode"
    },
    {
      "name": "EmrClusterForBackup",
      "coreInstanceCount": "1",
      "taskInstanceCount": "1",
      "taskInstanceType": "m4.xlarge",
      "coreInstanceType": "m4.xlarge",
      "releaseLabel": "emr-4.7.0",
      "masterInstanceType": "m4.xlarge",
      "id": "EmrClusterForBackup",
      "subnetId": "#{mySubnetId}",
      "emrManagedMasterSecurityGroupId": "#{myMasterSecurityGroup}",
      "emrManagedSlaveSecurityGroupId": "#{mySlaveSecurityGroup}",
      "serviceAccessSecurityGroupId": "#{myServiceAccessSecurityGroup}",
      "region": "#{myDDBRegion}",
      "type": "EmrCluster",
      "keyPair": "user-key-pair"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "#{myPipelineLogUri}",
      "scheduleType": "ONDEMAND",
      "name": "Default",
      "id": "Default"
    }
  ],
  "parameters": [
    {
      "description": "Output S3 folder",
      "id": "myOutputS3Loc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "description": "Source DynamoDB table name",
      "id": "myDDBTableName",
      "type": "String"
    },
    {
      "default": "0.25",
      "watermark": "Enter value between 0.1-1.0",
      "description": "DynamoDB read throughput ratio",
      "id": "myDDBReadThroughputRatio",
      "type": "Double"
    },
    {
      "default": "us-east-1",
      "watermark": "us-east-1",
      "description": "Region of the DynamoDB table",
      "id": "myDDBRegion",
      "type": "String"
    }
  ],
  "values": {
     "myDDBRegion": "us-east-1",
      "myDDBTableName": "ddb_table",
      "myDDBReadThroughputRatio": "0.25",
      "myOutputS3Loc": "s3://s3_path",
      "mySubnetId": "subnet_id",
      "myServiceAccessSecurityGroup":  "service access security group",
      "mySlaveSecurityGroup": "slave security group",
      "myMasterSecurityGroup": "master security group",
      "myPipelineLogUri": "s3://s3_path"
  }
}
```

# Asociar volúmenes de EBS a los nodos del clúster
<a name="emrcluster-example-ebs"></a>

**Example**  <a name="example8"></a>
Puede asociar volúmenes de EBS a cualquier tipo de nodo en el clúster de EMR dentro de la canalización. Para asociar volúmenes de EBS a los nodos, utilice `coreEbsConfiguration`, `masterEbsConfiguration` y `TaskEbsConfiguration` en su configuración `EmrCluster`.   
Este ejemplo del clúster Amazon EMR utiliza volúmenes de Amazon EBS para sus nodos de tarea, maestro y principal. Para más información, consulte [Volúmenes de Amazon EBS en Amazon EMR ](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-storage.html) en la *Guía de administración de Amazon EMR*.  
Estas configuraciones son opcionales. Puede utilizarlas en cualquier canalización que use un objeto `EmrCluster`.  
En la canalización, haga clic en la configuración del objeto `EmrCluster`, seleccione **Master EBS Configuration**, (Configuración de EBS maestra) **Core EBS Configuration**, (Configuración de EBS principal) **Task EBS Configuration** (Configuración de EBS de tareas) y especifique los detalles de configuración de modo similar a como se muestra en el siguiente ejemplo.  

```
{
  "objects": [
    {
      "output": {
        "ref": "S3BackupLocation"
      },
      "input": {
        "ref": "DDBSourceTable"
      },
      "maximumRetries": "2",
      "name": "TableBackupActivity",
      "step": "s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,#{output.directoryPath},#{input.tableName},#{input.readThroughputPercent}",
      "id": "TableBackupActivity",
      "runsOn": {
        "ref": "EmrClusterForBackup"
      },
      "type": "EmrActivity",
      "resizeClusterBeforeRunning": "false"
    },
    {
      "readThroughputPercent": "#{myDDBReadThroughputRatio}",
      "name": "DDBSourceTable",
      "id": "DDBSourceTable",
      "type": "DynamoDBDataNode",
      "tableName": "#{myDDBTableName}"
    },
    {
      "directoryPath": "#{myOutputS3Loc}/#{format(@scheduledStartTime, 'YYYY-MM-dd-HH-mm-ss')}",
      "name": "S3BackupLocation",
      "id": "S3BackupLocation",
      "type": "S3DataNode"
    },
    {
      "name": "EmrClusterForBackup",
      "coreInstanceCount": "1",
      "taskInstanceCount": "1",
      "taskInstanceType": "m4.xlarge",
      "coreInstanceType": "m4.xlarge",
      "releaseLabel": "emr-4.7.0",
      "masterInstanceType": "m4.xlarge",
      "id": "EmrClusterForBackup",
      "subnetId": "#{mySubnetId}",
      "emrManagedMasterSecurityGroupId": "#{myMasterSecurityGroup}",
      "emrManagedSlaveSecurityGroupId": "#{mySlaveSecurityGroup}",
      "region": "#{myDDBRegion}",
      "type": "EmrCluster",
      "coreEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "masterEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "taskEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "keyPair": "user-key-pair"
    },
    {
       "name": "EBSConfiguration",
        "id": "EBSConfiguration",
        "ebsOptimized": "true",
        "ebsBlockDeviceConfig" : [
            { "ref": "EbsBlockDeviceConfig" }
        ],
        "type": "EbsConfiguration"
    },
    {
        "name": "EbsBlockDeviceConfig",
        "id": "EbsBlockDeviceConfig",
        "type": "EbsBlockDeviceConfig",
        "volumesPerInstance" : "2",
        "volumeSpecification" : {
            "ref": "VolumeSpecification"
        }
    },
    {
      "name": "VolumeSpecification",
      "id": "VolumeSpecification",
      "type": "VolumeSpecification",
      "sizeInGB": "500",
      "volumeType": "io1",
      "iops": "1000"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "#{myPipelineLogUri}",
      "scheduleType": "ONDEMAND",
      "name": "Default",
      "id": "Default"
    }
  ],
  "parameters": [
    {
      "description": "Output S3 folder",
      "id": "myOutputS3Loc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "description": "Source DynamoDB table name",
      "id": "myDDBTableName",
      "type": "String"
    },
    {
      "default": "0.25",
      "watermark": "Enter value between 0.1-1.0",
      "description": "DynamoDB read throughput ratio",
      "id": "myDDBReadThroughputRatio",
      "type": "Double"
    },
    {
      "default": "us-east-1",
      "watermark": "us-east-1",
      "description": "Region of the DynamoDB table",
      "id": "myDDBRegion",
      "type": "String"
    }
  ],
  "values": {
     "myDDBRegion": "us-east-1",
      "myDDBTableName": "ddb_table",
      "myDDBReadThroughputRatio": "0.25",
      "myOutputS3Loc": "s3://s3_path",
      "mySubnetId": "subnet_id",
      "mySlaveSecurityGroup": "slave security group",
      "myMasterSecurityGroup": "master security group",
      "myPipelineLogUri": "s3://s3_path"
  }
}
```

## Véase también
<a name="emrcluster-seealso"></a>
+ [EmrActivity](dp-object-emractivity.md)

# HttpProxy
<a name="dp-object-httpproxy"></a>

HttpProxy le permite configurar su propio proxy y hacer que Task Runner acceda al AWS Data Pipeline servicio a través de él. No es necesario configurar una Task Runner en ejecución con esta información.

## Ejemplo de HttpProxy entrada TaskRunner
<a name="example9"></a>

En la siguiente definición de canalización se muestra un objeto `HttpProxy`:

```
{
  "objects": [
    {
      "schedule": {
        "ref": "Once"
      },
      "pipelineLogUri": "s3://myDPLogUri/path",
      "name": "Default",
      "id": "Default"
    },
    {
      "name": "test_proxy",
      "hostname": "hostname",
      "port": "port",
      "username": "username",
      "*password": "password",
      "windowsDomain": "windowsDomain",
      "type": "HttpProxy",
      "id": "test_proxy",
    },
    {
      "name": "ShellCommand",
      "id": "ShellCommand",
      "runsOn": {
        "ref": "Resource"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'hello world' "
    },
    {
      "period": "1 day",
      "startDateTime": "2013-03-09T00:00:00",
      "name": "Once",
      "id": "Once",
      "endDateTime": "2013-03-10T00:00:00",
      "type": "Schedule"
    },
    {
      "role": "dataPipelineRole",
      "httpProxy": {
        "ref": "test_proxy"
      },
      "actionOnResourceFailure": "retrynone",
      "maximumRetries": "0",
      "type": "Ec2Resource",
      "terminateAfter": "10 minutes",
      "resourceRole": "resourceRole",
      "name": "Resource",
      "actionOnTaskFailure": "terminate",
      "securityGroups": "securityGroups",
      "keyPair": "keyPair",
      "id": "Resource",
      "region": "us-east-1"
    }
  ],
  "parameters": []
}
```

## Sintaxis
<a name="httpproxy-slots"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| hostname | El host proxy que usarán los clientes para conectarse a los servicios de AWS. | Cadena | 
| puerto | El puerto del host proxy que usarán los clientes para conectarse a los servicios de AWS. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| \$1password | Contraseña de proxy. | Cadena | 
| s3 NoProxy | Deshabilite el proxy HTTP cuando se conecte a Amazon S3 | Booleano | 
| nombre de usuario | Nombre de usuario de proxy. | Cadena | 
| windowsDomain | windowsDomain | Cadena | 
| windowsWorkgroup | El nombre de grupo de trabajo de Windows para el proxy NTLM. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Condiciones previas
<a name="dp-object-preconditions"></a>

Los siguientes son los objetos de AWS Data Pipeline condición previa:

**Topics**
+ [DBDataDynamo existe](dp-dynamodbdataexists.md)
+ [Dynamo existe DBTable](dp-dynamodbtableexists.md)
+ [Existe](dp-object-exists.md)
+ [S3 KeyExists](dp-object-S3KeyExists.md)
+ [S3 PrefixNotEmpty](dp-object-s3prefixnotempty.md)
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# DBDataDynamo existe
<a name="dp-dynamodbdataexists"></a>

 Una condición previa para comprobar que los datos existen en una tabla de DynamoDB. 

## Sintaxis
<a name="dp-dynamodbdataexists-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| rol | Especifica el rol que se va a usar para ejecutar la condición previa. | Cadena | 
| tableName | Tabla de DynamoDB que se comprobará. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| preconditionTimeout | Período desde el comienzo después del cual la condición previa se marca como fallida si aún no se ha satisfecho. | Periodo | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| currentRetryCount | Número de veces que se probó la condición previa en este intento. | Cadena | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| lastRetryTime | Última vez que se probó la condición previa en este intento. | Cadena | 
| nodo | El nodo para el que se está realizando esta condición previa. | Objeto de referencia, por ejemplo, «node»: \$1"ref»:» myRunnableObject Id "\$1 | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Dynamo existe DBTable
<a name="dp-dynamodbtableexists"></a>

 Una condición previa para comprobar que la tabla de DynamoDB existe. 

## Sintaxis
<a name="dp-dynamodbtableexists-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| rol | Especifica el rol que se va a usar para ejecutar la condición previa. | Cadena | 
| tableName | Tabla de DynamoDB que se comprobará. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| preconditionTimeout | Período desde el comienzo después del cual la condición previa se marca como fallida si aún no se ha satisfecho. | Periodo | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| currentRetryCount | Número de veces que se probó la condición previa en este intento. | Cadena | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| lastRetryTime | Última vez que se probó la condición previa en este intento. | Cadena | 
| nodo | El nodo para el que se está realizando esta condición previa. | Objeto de referencia, por ejemplo, «node»: \$1"ref»:» myRunnableObject Id "\$1 | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Existe
<a name="dp-object-exists"></a>

 Comprueba si existe un objeto del nodo de datos. 

**nota**  
Recomendamos que use condiciones previas administradas por el sistema en su lugar. Para obtener más información, consulte [Condiciones previas](dp-concepts-preconditions.md).

## Ejemplo
<a name="exists-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. El objeto `InputData` hace referencia a este objeto, `Ready`, además de a otro objeto que se definiría en el mismo archivo de definición de canalización. `CopyPeriod` es un objeto `Schedule`.

```
{
  "id" : "InputData",
  "type" : "S3DataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "filePath" : "s3://amzn-s3-demo-bucket/InputData/#{@scheduledStartTime.format('YYYY-MM-dd-hh:mm')}.csv",
  "precondition" : { "ref" : "Ready" }
},
{
  "id" : "Ready",
  "type" : "Exists"
}
```

## Sintaxis
<a name="exists-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| preconditionTimeout | Período desde el comienzo después del cual la condición previa se marca como fallida si aún no se ha satisfecho. | Periodo | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| nodo | nodo. | Objeto de referencia, por ejemplo, «node»: \$1"ref»:» myRunnableObject Id "\$1 | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="exists-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# S3 KeyExists
<a name="dp-object-S3KeyExists"></a>

 Comprueba si existe una clave en un nodo de datos de Amazon S3.

## Ejemplo
<a name="dp-object-S3KeyExists-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. La condición previa se activará cuando la clave, `s3://amzn-s3-demo-bucket/mykey`, a la que hace referencia el parámetro `s3Key`, existe. 

```
{
"id" : "InputReady",
"type" : "S3KeyExists",
"role" : "test-role",
"s3Key" : "s3://amzn-s3-demo-bucket/mykey"
}
```

También puede utilizar `S3KeyExists` como una condición previa en la segunda canalización que espera a que finalice la primera canalización. Para ello:

1. Escriba un archivo en Amazon S3 tras la finalización de la primera canalización.

1. Cree una condición previa `S3KeyExists` en la segunda canalización.

## Sintaxis
<a name="S3KeyExists-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| rol | Especifica el rol que se va a usar para ejecutar la condición previa. | Cadena | 
| s3Key | La clave de Amazon S3. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera antes de intentar completar el trabajo remoto una vez más. Si se establece, se intenta de nuevo una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| failureAndRerunModo | failureAndRerunMode. | Enumeración | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maximumRetries | Número máximo de intentos que se iniciarán en caso de error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| preconditionTimeout | preconditionTimeout. | Periodo | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos consecutivos. | Periodo | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| currentRetryCount | Número de veces que se probó la condición previa en este intento. | Cadena | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| lastRetryTime | Última vez que se probó la condición previa en este intento. | Cadena | 
| nodo | El nodo para el que se está realizando esta condición previa. | Objeto de referencia, por ejemplo, «node»: \$1"ref»:» myRunnableObject Id "\$1 | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="S3KeyExists-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# S3 PrefixNotEmpty
<a name="dp-object-s3prefixnotempty"></a>

Una condición previa para comprobar que los objetos de Amazon S3 con el prefijo especificado (representado como un URI) están presentes.

## Ejemplo
<a name="s3prefixnotempty-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto mediante campos obligatorios, opcionales y de expresión.

```
{
  "id" : "InputReady",
  "type" : "S3PrefixNotEmpty",
  "role" : "test-role",
  "s3Prefix" : "#{node.filePath}"
}
```

## Sintaxis
<a name="s3prefixnotempty-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| rol | Especifica el rol que se va a usar para ejecutar la condición previa. | Cadena | 
| s3Prefix | Prefijo de Amazon S3 para comprobar la existencia de objetos. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| preconditionTimeout | Período desde el comienzo después del cual la condición previa se marca como fallida si aún no se ha satisfecho. | Periodo | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| currentRetryCount | Número de veces que se probó la condición previa en este intento. | Cadena | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| lastRetryTime | Última vez que se probó la condición previa en este intento. | Cadena | 
| nodo | nodo. | Objeto de referencia, por ejemplo, «node»: \$1"ref»:» myRunnableObject Id "\$1 | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="s3prefixnotempty-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# ShellCommandPrecondition
<a name="dp-object-shellcommandprecondition"></a>

 Un comando de Unix/Linux shell que se puede ejecutar como condición previa. 

## Ejemplo
<a name="shellcommandprecondition-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "VerifyDataReadiness",
  "type" : "ShellCommandPrecondition",
  "command" : "perl check-data-ready.pl"
}
```

## Sintaxis
<a name="shellcommandprecondition-syntax"></a>


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| comando | El comando que se va a ejecutar. Este valor y cualquier parámetro asociado debe funcionar en el entorno desde el que se está ejecutando Task Runner. | Cadena | 
| scriptUri | Una ruta del URI de Amazon S3 para que se descargue un archivo y se ejecute como comando de shell. Solo debe estar presente un campo de comando o un scriptUri. scriptUri no puede utilizar parámetros; utilice un comando en su lugar. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Estado más reciente notificado por la actividad remota. | Cadena | 
| attemptTimeout | Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. | Periodo | 
| failureAndRerunModo | Describe el comportamiento del nodo del consumidor cuando las dependencias producen un error o se vuelven a ejecutar. | Enumeración | 
| lateAfterTimeout | El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand.  | Periodo | 
| maximumRetries | Número máximo de reintentos cuando se produce un error. | Entero | 
| onFail | Acción que se debe ejecutar cuando el objeto actual produzca un error. | Objeto de referencia, por ejemplo, «onFail»: \$1"ref»:» myActionId «\$1 | 
| onLateAction | Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. | Objeto de referencia, por ejemplo, "onLateAction«: \$1" ref»:» myActionId «\$1 | 
| onSuccess | Acción que se debe ejecutar cuando el objeto actual se complete correctamente. | Objeto de referencia, por ejemplo, «onSuccess»: \$1"ref»:» myActionId «\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| preconditionTimeout | Período desde el comienzo después del cual la condición previa se marca como fallida si aún no se ha satisfecho. | Periodo | 
| reportProgressTimeout | Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. | Periodo | 
| retryDelay | Duración del tiempo de espera entre dos reintentos. | Periodo | 
| scriptArgument | Argumento que se transfiere al script de shell. | Cadena | 
| stderr | La ruta de Amazon S3 que recibe los mensajes de error del sistema redirigidos desde el comando. Si utiliza el campo runsOn, esta debe ser una ruta de Amazon S3 debido a la naturaleza transitoria del recurso que ejecuta su actividad. No obstante, si especifica el campo workerGroup, se permite una ruta de archivo local. | Cadena | 
| stdout | La ruta de Amazon S3 que recibe la salida redirigida del comando. Si utiliza el campo runsOn, esta debe ser una ruta de Amazon S3 debido a la naturaleza transitoria del recurso que ejecuta su actividad. No obstante, si especifica el campo workerGroup, se permite una ruta de archivo local. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista de los objetos de instancias activas programados actualmente. | Objeto de referencia, por ejemplo, «ActiveInstances»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @actualEndTime | La hora a la que finalizó la ejecución de este objeto. | DateTime | 
| @actualStartTime | La hora a la que comenzó la ejecución de este objeto. | DateTime | 
| cancellationReason | El valor de cancellationReason si este objeto se ha cancelado. | Cadena | 
| @cascadeFailedOn | Descripción de la cadena de dependencia en la que ha fallado el objeto. | Objeto de referencia, por ejemplo, "cascadeFailedOn«: \$1" ref»:» myRunnableObject Id "\$1 | 
| emrStepLog | Registros de pasos de EMR disponibles únicamente sobre intentos de actividad de EMR. | Cadena | 
| errorId | El valor de errorId si este objeto ha fallado. | Cadena | 
| errorMessage | El valor de errorMessage si este objeto ha fallado. | Cadena | 
| errorStackTrace | El seguimiento de la pila de error si este objeto ha fallado. | Cadena | 
| hadoopJobLog | Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. | Cadena | 
| hostname | El nombre de host del cliente que recogió el intento de tarea. | Cadena | 
| nodo | El nodo para el que se está realizando esta condición previa. | Objeto de referencia, por ejemplo, «node»: \$1"ref»:» myRunnableObject Id "\$1 | 
| reportProgressTime | La hora más reciente a la que la actividad remota notificó algún progreso. | DateTime | 
| @scheduledEndTime | Hora de finalización programada para el objeto. | DateTime | 
| @scheduledStartTime | Hora de comienzo programada para el objeto. | DateTime | 
| @status | El estado de este objeto. | Cadena | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 
| @waitingOn | Descripción de la lista de dependencias de la que este objeto está a la espera. | Objeto de referencia, por ejemplo, «WaitingOn»: \$1"ref»:» myRunnableObject Id "\$1 | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="shellcommandprecondition-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [Existe](dp-object-exists.md)

# Bases de datos
<a name="dp-object-databases"></a>

Los siguientes son los objetos de la AWS Data Pipeline base de datos:

**Topics**
+ [JdbcDatabase](dp-object-jdbcdatabase.md)
+ [RdsDatabase](dp-object-rdsdatabase.md)
+ [RedshiftDatabase](dp-object-redshiftdatabase.md)

# JdbcDatabase
<a name="dp-object-jdbcdatabase"></a>

Define una base de datos JDBC.

## Ejemplo
<a name="jdbcdatabase-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "MyJdbcDatabase",
  "type" : "JdbcDatabase",
  "connectionString" : "jdbc:redshift://hostname:portnumber/dbname",
  "jdbcDriverClass" : "com.amazon.redshift.jdbc41.Driver",
  "jdbcDriverJarUri" : "s3://redshift-downloads/drivers/RedshiftJDBC41-1.1.6.1006.jar",
  "username" : "user_name",
  "*password" : "my_password"
}
```

## Sintaxis
<a name="jdbcdatabase-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| connectionString | La cadena de conexión JDBC para acceder a la base de datos. | Cadena | 
| jdbcDriverClass | La clase de controlador que se va a cargar antes de establecer la conexión JDBC. | Cadena | 
| \$1password | La contraseña que se debe suministrar. | Cadena | 
| nombre de usuario | nombre de usuario. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| databaseName | El nombre de la base de datos lógica a la que conectarse. | Cadena | 
| jdbcDriverJarUri | La ubicación en Amazon S3 del archivo JAR del controlador JDBC que se utiliza para conectarse a la base de datos. AWS Data Pipeline debe tener permiso para leer este archivo JAR. | Cadena | 
| jdbcProperties | Pares de la forma A=B que se configurarán como propiedades en conexiones JDBC para esta base de datos. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# RdsDatabase
<a name="dp-object-rdsdatabase"></a>

Define una base de datos Amazon RDS.

**nota**  
RdsDatabase no es compatible con Aurora. Use [JdbcDatabase](dp-object-jdbcdatabase.md) para Aurora, en su lugar.

## Ejemplo
<a name="rdsdatabase-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "MyRdsDatabase",
  "type" : "RdsDatabase",
  "region" : "us-east-1",
  "username" : "user_name",
  "*password" : "my_password",
  "rdsInstanceId" : "my_db_instance_identifier"
}
```

Para el motor de Oracle, se requiere el campo `jdbcDriverJarUri` y puede especificar el siguiente controlador: `http://www.oracle.com/technetwork/database/features/jdbc/jdbc-drivers-12c-download-1958347.html`. Para el motor de SQL Server, se requiere el campo `jdbcDriverJarUri` y puede especificar el siguiente controlador: `https://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=11774`. Para los motores de MySQL y PostgreSQL, el campo `jdbcDriverJarUri` es opcional.

## Sintaxis
<a name="rdsdatabase-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| \$1password | La contraseña que se debe suministrar. | Cadena | 
| rdsInstanceId | La propiedad DBInstanceIdentifier de la instancia de base de datos. | Cadena | 
| nombre de usuario | nombre de usuario. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| databaseName | El nombre de la base de datos lógica a la que conectarse. | Cadena | 
| jdbcDriverJarUri | La ubicación en Amazon S3 del archivo JAR del controlador JDBC que se utiliza para conectarse a la base de datos. AWS Data Pipeline debe tener permiso para leer este archivo JAR. En el caso de los motores MySQL y PostgreSQL, se utiliza el controlador predeterminado si no se especifica este campo, pero puede anular el valor predeterminado utilizando este campo. Para los motores de Oracle y SQL Server, este campo es obligatorio. | Cadena | 
| jdbcProperties | Pares de la forma A=B que se configurarán como propiedades en conexiones JDBC para esta base de datos. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| region | El código de la región en la que se encuentra la base de datos. Por ejemplo, us-east-1. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# RedshiftDatabase
<a name="dp-object-redshiftdatabase"></a>

Define una base de datos Amazon Redshift. `RedshiftDatabase` representa las propiedades de la base de datos que utiliza la canalización.

## Ejemplo
<a name="redshiftdatabase-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto.

```
{
  "id" : "MyRedshiftDatabase",
  "type" : "RedshiftDatabase",
  "clusterId" : "myRedshiftClusterId",
  "username" : "user_name",
  "*password" : "my_password",
  "databaseName" : "database_name"
}
```

De forma predeterminada, el objeto usa el controlador Postgres, que requiere el campo `clusterId`. Para usar el controlador Amazon Redshift, especifique la cadena de conexión de la base de datos Amazon Redshift de la consola de (comienza por “jdbc:redshift:”) en el campo `connectionString` en su lugar.

## Sintaxis
<a name="redshiftdatabase-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| \$1password | La contraseña que se debe suministrar. | Cadena | 
| nombre de usuario | nombre de usuario. | Cadena | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| clusterId | El identificador que proporcionó el usuario cuando se creó el clúster de Amazon Redshift. Por ejemplo, si el punto de conexión de su clúster de Amazon Redshift es mydb.example.us-east-1.redshift.amazonaws.com, el identificador correcto es mydb. En la consola de Amazon Redshift, puede obtener este valor del nombre o identificador del clúster. | Cadena | 
| connectionString | El punto de conexión de JDBC para conectarse a una instancia de Amazon Redshift que es propiedad de una cuenta diferente a la de la canalización. No puede especificar connectionString ni clusterId. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| databaseName | El nombre de la base de datos lógica a la que conectarse. | Cadena | 
| jdbcProperties | Pares con el formato A=B que se configuran como propiedades en conexiones JDBC para esta base de datos. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredan los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| region | El código de la región en la que se encuentra la base de datos. Por ejemplo, us-east-1. | Enumeración | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Formatos de los datos
<a name="dp-object-dataformats"></a>

Los siguientes son los objetos AWS Data Pipeline de formato de datos:

**Topics**
+ [Formato de los datos CSV](dp-object-csv.md)
+ [Formato de los datos personalizado](dp-object-custom.md)
+ [Formato Dynamo DBData](dp-object-dynamodbdataformat.md)
+ [Dinamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md)
+ [RegEx Formato de datos](dp-object-regex.md)
+ [Formato de datos TSV](dp-object-tsv.md)

# Formato de los datos CSV
<a name="dp-object-csv"></a>

Un formato de datos delimitado por comas donde el separador de columnas es una coma y el separador de registros es un carácter de nueva línea.

## Ejemplo
<a name="csv-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "CSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxis
<a name="csv-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ejemplo: nombre de host STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. | Cadena | 
| escapeChar | Un carácter, por ejemplo "\$1", que indica al analizador que omita el carácter siguiente. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Formato de los datos personalizado
<a name="dp-object-custom"></a>

Un formato de datos personalizado definido por una combinación de un determinado separador de columnas, separador de registros y carácter de escape.

## Ejemplo
<a name="custom-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "Custom",
  "columnSeparator" : ",",
  "recordSeparator" : "\n",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxis
<a name="custom-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columnSeparator | Un carácter que indica el final de una columna en un archivo de datos. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ejemplo: nombre de host STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| recordSeparator | Un carácter que indica el final de una fila en un archivo de datos; por ejemplo, "\$1n". Solo se admiten caracteres únicos. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Formato Dynamo DBData
<a name="dp-object-dynamodbdataformat"></a>

Aplica un esquema a una tabla de DynamoDB para hacerla accesible mediante una consulta de Hive. `DynamoDBDataFormat` se utiliza con un objeto `HiveActivity` y una entrada y salida `DynamoDBDataNode`. `DynamoDBDataFormat` requiere que se especifiquen todas las columnas en la consulta de Hive. A fin de obtener una mayor flexibilidad para especificar determinadas columnas en una consulta de Hive o soporte de Amazon S3, consulte [Dinamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md).

**nota**  
Los tipos booleanos de DynamoDB no están asignados a los tipos booleanos de Hive. Sin embargo, es posible asignar valores enteros de DynamoDB de 0 o 1 a tipos booleanos de Hive.

## Ejemplo
<a name="dynamodbdataformat-example"></a>

En el siguiente ejemplo se muestra cómo usar `DynamoDBDataFormat` para asignar un esquema a una entrada `DynamoDBDataNode`, que permite a un objeto `HiveActivity` obtener acceso a los datos por columnas con nombres y copiar los datos a una salida `DynamoDBDataNode`. 

```
{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}
```

## Sintaxis
<a name="dynamodbdataformat-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | El nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Por ejemplo, hostname STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. | Cadena | 
| parent | El elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, como «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | La versión de canalización utilizada para crear el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | El error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | El ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Dinamo DBExport DataFormat
<a name="dp-object-dynamodbexportdataformat"></a>

Aplica un esquema a una tabla de DynamoDB para hacerla accesible mediante una consulta de Hive. Utilice `DynamoDBExportDataFormat` con un objeto `HiveCopyActivity` y una entrada y salida `DynamoDBDataNode` o `S3DataNode`. `DynamoDBExportDataFormat` tiene los beneficios siguientes: 
+ Da soporte tanto a DynamoDB como a Amazon S3
+ Permite filtrar datos por determinadas columnas en su consulta de Hive
+ Exporta todos los atributos desde DynamoDB, incluso si se tiene un esquema disperso

**nota**  
Los tipos booleanos de DynamoDB no están asignados a los tipos booleanos de Hive. Sin embargo, es posible asignar valores enteros de DynamoDB de 0 o 1 a tipos booleanos de Hive.

## Ejemplo
<a name="dynamodbexportdataformat-example"></a>

En el siguiente ejemplo se muestra cómo usar `HiveCopyActivity` y `DynamoDBExportDataFormat` para copiar datos de un nodo `DynamoDBDataNode` a otro, mientras se filtra en función de una marca temporal.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Sintaxis
<a name="dynamodbexportdataformat-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ej.: hostname STRING | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# RegEx Formato de datos
<a name="dp-object-regex"></a>

Un formato de datos personalizado definido por una expresión regular.

## Ejemplo
<a name="regex-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

```
{
  "id" : "MyInputDataType",
  "type" : "RegEx",
  "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
  "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s",
  "column" : [
    "host STRING",
    "identity STRING",
    "user STRING",
    "time STRING",
    "request STRING",
    "status STRING",
    "size STRING",
    "referer STRING",
    "agent STRING"
  ]
}
```

## Sintaxis
<a name="regex-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ejemplo: nombre de host STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. | Cadena | 
| inputRegEx | La expresión regular para analizar un archivo de entrada de S3. inputRegEx proporciona una forma de recuperar columnas de datos relativamente desestructurados de un archivo. | Cadena | 
| outputFormat | Los campos de columnas recuperados por inputRegEx, pero referenciados como %1\$1s %2\$1s, con la sintaxis del formateador Java. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» Id "\$1 myBaseObject | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Formato de datos TSV
<a name="dp-object-tsv"></a>

Un formato de datos delimitado por comas donde el separador de columnas es un tabulador y el separador de registros es un carácter de nueva línea.

## Ejemplo
<a name="tsv-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "TSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxis
<a name="tsv-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de columna y tipo de dato de los datos que se describen en este nodo de datos. Por ejemplo, "Name STRING" indica una columna denominada Name con los campos del tipo de dato STRING. Separe varios pares de nombre de columna y tipo de dato con comas (tal como se muestra en el ejemplo). | Cadena | 
| columnSeparator | El carácter que separa los campos de una columna de los campos de la siguiente columna. El valor predeterminado es '\$1t'. | Cadena | 
| escapeChar | Un carácter, por ejemplo "\$1", que indica al analizador que omita el carácter siguiente. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredan los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| recordSeparator | El carácter que separa registros. El valor predeterminado es '\$1n'. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

# Acciones
<a name="dp-object-actions"></a>

Los objetos de AWS Data Pipeline acción son los siguientes:

**Topics**
+ [SnsAlarm](dp-object-snsalarm.md)
+ [Finalizar](dp-object-terminate.md)

# SnsAlarm
<a name="dp-object-snsalarm"></a>

 Envía un mensaje de notificación de Amazon SNS cuando una actividad falla o finaliza correctamente. 

## Ejemplo
<a name="snsalarm-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Los valores de `node.input` y `node.output` proceden de la actividad o el nodo de datos que hace referencia a este objeto en su campo `onSuccess`. 

```
{
  "id" : "SuccessNotify",
  "name" : "SuccessNotify",
  "type" : "SnsAlarm",
  "topicArn" : "arn:aws:sns:us-east-1:28619EXAMPLE:ExampleTopic",
  "subject" : "COPY SUCCESS: #{node.@scheduledStartTime}",
  "message" : "Files were copied from #{node.input} to #{node.output}."
}
```

## Sintaxis
<a name="snsalarm-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| message | El texto de la notificación de Amazon SNS. | Cadena | 
| rol | El rol de IAM que se debe utilizar para crear la alarma de Amazon SNS. | Cadena | 
| subject | El asunto del mensaje de notificación de Amazon SNS. | Cadena | 
| topicArn | El ARN de tema de Amazon SNS de destino para el mensaje. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| nodo | nodo. | Objeto de referencia, por ejemplo, «node»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Finalizar
<a name="dp-object-terminate"></a>

Acción que desencadena la cancelación de una actividad, un recurso o un nodo de datos pendientes o inacabados. AWS Data Pipeline intenta poner la actividad, el recurso o el nodo de datos en el estado CANCELADO si no comienza por el `lateAfterTimeout` valor. 

No puede finalizar acciones que incluyan recursos `onSuccess`, `OnFail` u `onLateAction`.

## Ejemplo
<a name="terminate-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. En este ejemplo, el campo `onLateAction` de `MyActivity` contiene una referencia a la acción `DefaultAction1`. Al proporcionar una acción para `onLateAction`, también debe facilitar un valor `lateAfterTimeout` para indicar el período de tiempo desde el inicio programado de la canalización tras el cual la actividad se considera tardía.

```
{
  "name" : "MyActivity",
  "id" : "DefaultActivity1",
  "schedule" : {
    "ref" : "MySchedule"
  },
  "runsOn" : {
    "ref" : "MyEmrCluster"
  },
  "lateAfterTimeout" : "1 Hours",
  "type" : "EmrActivity",
  "onLateAction" : {
    "ref" : "DefaultAction1"
  },
  "step" : [
    "s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg",
    "s3://amzn-s3-demo-bucket/myPath/myOtherStep.jar,anotherArg"
  ]
},
{
  "name" : "TerminateTasks",
  "id" : "DefaultAction1",
  "type" : "Terminate"
}
```

## Sintaxis
<a name="terminate-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| parent | Elemento principal del objeto actual del que se heredan los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| nodo | nodo. | Objeto de referencia, por ejemplo, «node»: \$1"ref»:» myRunnableObject Id "\$1 | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

# Schedule
<a name="dp-object-schedule"></a>

Define los tiempos de un evento programado, como cuando se ejecuta una actividad.

**nota**  
Cuando la hora de inicio de un programa es pasada, se AWS Data Pipeline rellena el proceso y se empieza a programar las ejecuciones inmediatamente a partir de la hora de inicio especificada. Para pruebas o desarrollo, use un intervalo relativamente corto. De lo contrario, AWS Data Pipeline intenta poner en cola y programar todas las ejecuciones de la canalización para ese intervalo. AWS Data Pipeline intenta evitar rellenamientos accidentales si el componente de la canalización `scheduledStartTime` se produjo antes de hace 1 día bloqueando la activación de la canalización.

## Ejemplos
<a name="schedule-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. Define un programa de cada hora comenzando a las 00:00:00 horas el 01-09-2012 y finalizando a las 00:00:00 horas el 01-10-2012. El primer período finaliza a las 01:00:00 el 01-09-2012.

```
{
  "id" : "Hourly",
  "type" : "Schedule",
  "period" : "1 hours",
  "startDateTime" : "2012-09-01T00:00:00",
  "endDateTime" : "2012-10-01T00:00:00"
}
```

La siguiente canalización comenzará en `FIRST_ACTIVATION_DATE_TIME` y se ejecutará cada hora hasta las 22:00:00 horas el 25-04-2014.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startAt": "FIRST_ACTIVATION_DATE_TIME",
     "period": "1 hours",
     "type": "Schedule",
     "endDateTime": "2014-04-25T22:00:00"
   }
```

La siguiente canalización comenzará en `FIRST_ACTIVATION_DATE_TIME`, se ejecutará cada hora y se completará tras tres coincidencias.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startAt": "FIRST_ACTIVATION_DATE_TIME",
     "period": "1 hours",
     "type": "Schedule",
     "occurrences": "3"
   }
```

La siguiente canalización comenzará a las 22:00:00 el 25-04-2014, se ejecutará cada hora y finalizará tras tres coincidencias.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startDateTime": "2014-04-25T22:00:00",
     "period": "1 hours",
     "type": "Schedule",
     "occurrences": "3"
   }
```

Bajo demanda mediante el objeto Default

```
{
  "name": "Default",
  "resourceRole": "DataPipelineDefaultResourceRole",
  "role": "DataPipelineDefaultRole",
  "scheduleType": "ondemand"
}
```

Bajo demanda con el objeto Schedule explícito

```
{
  "name": "Default",
  "resourceRole": "DataPipelineDefaultResourceRole",
  "role": "DataPipelineDefaultRole",
  "scheduleType": "ondemand"
},
{
  "name": "DefaultSchedule",
  "type": "Schedule",
  "id": "DefaultSchedule",
  "period": "ONDEMAND_PERIOD",
  "startAt": "ONDEMAND_ACTIVATION_TIME"
},
```

En los siguientes ejemplos se muestra cómo un Schedule se puede heredar del objeto Default, establecer de forma explícita para ese objeto o proporcionar mediante una referencia principal:

Schedule heredado del objeto Default

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron",
      "schedule": {
        "ref": "DefaultSchedule"
      }
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

Schedule explícito en el objeto

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron"
      
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "schedule": {
        "ref": "DefaultSchedule"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

Schedule de la referencia principal

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron"
      
   },
   {       
      "id": "parent1",
      "schedule": {
        "ref": "DefaultSchedule"
      }
      
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "parent": {
        "ref": "parent1"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

## Sintaxis
<a name="schedule-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| periodo | Con qué frecuencia se debe ejecutar la canalización. El formato es "N [minutos\$1horas\$1días\$1semanas\$1meses]", donde N es un número seguido por uno de los especificadores de tiempo. Por ejemplo, "15 minutos", ejecuta la canalización cada 15 minutos. El período mínimo es de 15 minutos y el período máximo es de 3 años. | Periodo | 

 


****  

| Grupo obligatorio (se requiere uno de los siguientes) | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| startAt | La fecha y hora en la que se inician las ejecuciones programadas de la canalización. Un valor válido es FIRST\$1ACTIVATION\$1DATE\$1TIME, que queda obsoleto en favor de la creación de una canalización bajo demanda. | Enumeración | 
| startDateTime | La fecha y hora en la que se inician las ejecuciones programadas. Debe usar uno de ellos startDateTime o StartAt, pero no ambos. | DateTime | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| endDateTime | La fecha y la hora para finalizar las ejecuciones programadas. Debe ser una fecha y una hora posteriores al valor de startDateTime StartAt. El comportamiento predeterminado es programar ejecuciones hasta que la canalización se cierre.  | DateTime | 
| occurrences | El número de veces que se ejecutará la canalización una vez activada. No puedes usar ocurrencias con endDateTime. | Entero | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @firstActivationTime | La hora de creación del objeto. | DateTime | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Utilidades
<a name="dp-object-utilities"></a>

Los siguientes objetos de utilidad configuran otros objetos de canalización:

**Topics**
+ [ShellScriptConfig](dp-object-shellscriptconfig.md)
+ [EmrConfiguration](dp-object-emrconfiguration.md)
+ [Propiedad](dp-object-property.md)

# ShellScriptConfig
<a name="dp-object-shellscriptconfig"></a>

Utilízalo con una actividad para ejecutar un script de shell para preActivityTask Config y postActivityTask Config. Este objeto está disponible para [HadoopActivity[HiveActivity](dp-object-hiveactivity.md)](dp-object-hadoopactivity.md), [HiveCopyActivity](dp-object-hivecopyactivity.md), y [PigActivity](dp-object-pigactivity.md). Especifica un URI de S3 y una lista de argumentos para el script.

## Ejemplo
<a name="shellscriptconfig-example"></a>

A ShellScriptConfig con argumentos:

```
{
   "id" : "ShellScriptConfig_1”,
   "name" : “prescript”,
   "type" : "ShellScriptConfig",
   "scriptUri": “s3://my-bucket/shell-cleanup.sh”,
   "scriptArgument" : ["arg1","arg2"]
 }
```

## Sintaxis
<a name="shellscriptconfig-syntax"></a>

Este objeto incluye los siguientes campos.


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| parent | Elemento principal del objeto actual del que se heredan los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| scriptArgument | Una lista de argumentos que se van a usar con el script de shell. | Cadena | 
| scriptUri | El URI de script en Amazon S3 que se debe descargar y ejecutar. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

# EmrConfiguration
<a name="dp-object-emrconfiguration"></a>

El EmrConfiguration objeto es la configuración utilizada para los clústeres de EMR con la versión 4.0.0 o superior. Las configuraciones (en forma de lista) son un parámetro de la llamada a la RunJobFlow API. La API de configuración de Amazon EMR toma una clasificación y propiedades. AWS Data Pipeline utiliza EmrConfiguration los objetos Property correspondientes para configurar una [EmrCluster](dp-object-emrcluster.md) aplicación como Hadoop, Hive, Spark o Pig en clústeres de EMR lanzados en una ejecución en canalización. Como la configuración solo se puede cambiar para los clústeres nuevos, no puedes proporcionar un EmrConfiguration objeto para los recursos existentes. Para obtener más información, consulte [https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/).

## Ejemplo
<a name="emrconfiguration-example"></a>

El siguiente objeto de configuración establece las propiedades `io.file.buffer.size` y `fs.s3.block.size` en `core-site.xml`:

```
[
   {  
      "classification":"core-site",
      "properties":
      {
         "io.file.buffer.size": "4096",
         "fs.s3.block.size": "67108864"
      }
   }
]
```

La definición de objeto de canalización correspondiente utiliza un EmrConfiguration objeto y una lista de objetos Property en el `property` campo:

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "coresite"
      }
    },
    {
      "name": "coresite",
      "id": "coresite",
      "type": "EmrConfiguration",
      "classification": "core-site",
      "property": [{
        "ref": "io-file-buffer-size"
      },
      {
        "ref": "fs-s3-block-size"
      }
      ]
    },
    {
      "name": "io-file-buffer-size",
      "id": "io-file-buffer-size",
      "type": "Property",
      "key": "io.file.buffer.size",
      "value": "4096"
    },
    {
      "name": "fs-s3-block-size",
      "id": "fs-s3-block-size",
      "type": "Property",
      "key": "fs.s3.block.size",
      "value": "67108864"
    }
  ]
}
```

El siguiente ejemplo es una configuración anidada usada para establecer el entorno de Hadoop con la clasificación `hadoop-env`:

```
[
  {
    "classification": "hadoop-env",
    "properties": {},
    "configurations": [
      {
        "classification": "export",
        "properties": {
          "YARN_PROXYSERVER_HEAPSIZE": "2396"
        }
      }
    ]
  }
]
```

El objeto de definición de la canalización correspondiente que usa esta configuración se muestra a continuación:

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.0.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "hadoop-env"
      }
    },
    {
      "name": "hadoop-env",
      "id": "hadoop-env",
      "type": "EmrConfiguration",
      "classification": "hadoop-env",
      "configuration": {
        "ref": "export"
      }
    },
    {
      "name": "export",
      "id": "export",
      "type": "EmrConfiguration",
      "classification": "export",
      "property": {
        "ref": "yarn-proxyserver-heapsize"
      }
    },
    {
      "name": "yarn-proxyserver-heapsize",
      "id": "yarn-proxyserver-heapsize",
      "type": "Property",
      "key": "YARN_PROXYSERVER_HEAPSIZE",
      "value": "2396"
    },
  ]
}
```

El siguiente ejemplo modifica una propiedad específica de Hive para un clúster de EMR:

```
{
    "objects": [
        {
            "name": "hivesite",
            "id": "hivesite",
            "type": "EmrConfiguration",
            "classification": "hive-site",
            "property": [
                {
                    "ref": "hive-client-timeout"
                }
            ]
        },
        {
            "name": "hive-client-timeout",
            "id": "hive-client-timeout",
            "type": "Property",
            "key": "hive.metastore.client.socket.timeout",
            "value": "2400s"
        }
    ]
}
```

## Sintaxis
<a name="emrconfiguration-syntax"></a>

Este objeto incluye los siguientes campos.


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| clasificación | Clasificación de la configuración. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| configuración | Subconfiguración de esta configuración. | Objeto de referencia, por ejemplo, «configuración»: \$1"ref»:» myEmrConfiguration Id "\$1 | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| propiedad | Propiedad de configuración. | Objeto de referencia, por ejemplo, «propiedad»: \$1"ref»:» myPropertyId «\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="emrconfiguration-seealso"></a>
+ [EmrCluster](dp-object-emrcluster.md)
+ [Propiedad](dp-object-property.md)
+ [Guía de publicación de Amazon EMR](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/)

# Propiedad
<a name="dp-object-property"></a>

Una propiedad clave-valor única para usar con un EmrConfiguration objeto.

## Ejemplo
<a name="property-example"></a>

La siguiente definición de canalización muestra un EmrConfiguration objeto y los objetos Property correspondientes para lanzar un objeto: EmrCluster

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "coresite"
      }
    },
    {
      "name": "coresite",
      "id": "coresite",
      "type": "EmrConfiguration",
      "classification": "core-site",
      "property": [{
        "ref": "io-file-buffer-size"
      },
      {
        "ref": "fs-s3-block-size"
      }
      ]
    },
    {
      "name": "io-file-buffer-size",
      "id": "io-file-buffer-size",
      "type": "Property",
      "key": "io.file.buffer.size",
      "value": "4096"
    },
    {
      "name": "fs-s3-block-size",
      "id": "fs-s3-block-size",
      "type": "Property",
      "key": "fs.s3.block.size",
      "value": "67108864"
    }
  ]
}
```

## Sintaxis
<a name="property-syntax"></a>

Este objeto incluye los siguientes campos.


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| clave | key | Cadena | 
| valor | valor | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| parent | Elemento principal del objeto actual del que se heredan los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 

## Véase también
<a name="property-seealso"></a>
+ [EmrCluster](dp-object-emrcluster.md)
+ [EmrConfiguration](dp-object-emrconfiguration.md)
+ [Guía de publicación de Amazon EMR](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/)