

AWS Data Pipeline ya no está disponible para nuevos clientes. Los clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. [Más información](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Formatos de los datos
<a name="dp-object-dataformats"></a>

Los siguientes son los objetos AWS Data Pipeline de formato de datos:

**Topics**
+ [Formato de los datos CSV](dp-object-csv.md)
+ [Formato de los datos personalizado](dp-object-custom.md)
+ [Formato Dynamo DBData](dp-object-dynamodbdataformat.md)
+ [Dinamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md)
+ [RegEx Formato de datos](dp-object-regex.md)
+ [Formato de datos TSV](dp-object-tsv.md)

# Formato de los datos CSV
<a name="dp-object-csv"></a>

Un formato de datos delimitado por comas donde el separador de columnas es una coma y el separador de registros es un carácter de nueva línea.

## Ejemplo
<a name="csv-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "CSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxis
<a name="csv-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ejemplo: nombre de host STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. | Cadena | 
| escapeChar | Un carácter, por ejemplo "\$1", que indica al analizador que omita el carácter siguiente. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Formato de los datos personalizado
<a name="dp-object-custom"></a>

Un formato de datos personalizado definido por una combinación de un determinado separador de columnas, separador de registros y carácter de escape.

## Ejemplo
<a name="custom-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "Custom",
  "columnSeparator" : ",",
  "recordSeparator" : "\n",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxis
<a name="custom-syntax"></a>


****  

| Campos obligatorios | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columnSeparator | Un carácter que indica el final de una columna en un archivo de datos. | Cadena | 

 


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ejemplo: nombre de host STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| recordSeparator | Un carácter que indica el final de una fila en un archivo de datos; por ejemplo, "\$1n". Solo se admiten caracteres únicos. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Formato Dynamo DBData
<a name="dp-object-dynamodbdataformat"></a>

Aplica un esquema a una tabla de DynamoDB para hacerla accesible mediante una consulta de Hive. `DynamoDBDataFormat` se utiliza con un objeto `HiveActivity` y una entrada y salida `DynamoDBDataNode`. `DynamoDBDataFormat` requiere que se especifiquen todas las columnas en la consulta de Hive. A fin de obtener una mayor flexibilidad para especificar determinadas columnas en una consulta de Hive o soporte de Amazon S3, consulte [Dinamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md).

**nota**  
Los tipos booleanos de DynamoDB no están asignados a los tipos booleanos de Hive. Sin embargo, es posible asignar valores enteros de DynamoDB de 0 o 1 a tipos booleanos de Hive.

## Ejemplo
<a name="dynamodbdataformat-example"></a>

En el siguiente ejemplo se muestra cómo usar `DynamoDBDataFormat` para asignar un esquema a una entrada `DynamoDBDataNode`, que permite a un objeto `HiveActivity` obtener acceso a los datos por columnas con nombres y copiar los datos a una salida `DynamoDBDataNode`. 

```
{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}
```

## Sintaxis
<a name="dynamodbdataformat-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | El nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Por ejemplo, hostname STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. | Cadena | 
| parent | El elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, como «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | La versión de canalización utilizada para crear el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | El error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | El ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Dinamo DBExport DataFormat
<a name="dp-object-dynamodbexportdataformat"></a>

Aplica un esquema a una tabla de DynamoDB para hacerla accesible mediante una consulta de Hive. Utilice `DynamoDBExportDataFormat` con un objeto `HiveCopyActivity` y una entrada y salida `DynamoDBDataNode` o `S3DataNode`. `DynamoDBExportDataFormat` tiene los beneficios siguientes: 
+ Da soporte tanto a DynamoDB como a Amazon S3
+ Permite filtrar datos por determinadas columnas en su consulta de Hive
+ Exporta todos los atributos desde DynamoDB, incluso si se tiene un esquema disperso

**nota**  
Los tipos booleanos de DynamoDB no están asignados a los tipos booleanos de Hive. Sin embargo, es posible asignar valores enteros de DynamoDB de 0 o 1 a tipos booleanos de Hive.

## Ejemplo
<a name="dynamodbexportdataformat-example"></a>

En el siguiente ejemplo se muestra cómo usar `HiveCopyActivity` y `DynamoDBExportDataFormat` para copiar datos de un nodo `DynamoDBDataNode` a otro, mientras se filtra en función de una marca temporal.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Sintaxis
<a name="dynamodbexportdataformat-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ej.: hostname STRING | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# RegEx Formato de datos
<a name="dp-object-regex"></a>

Un formato de datos personalizado definido por una expresión regular.

## Ejemplo
<a name="regex-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

```
{
  "id" : "MyInputDataType",
  "type" : "RegEx",
  "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
  "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s",
  "column" : [
    "host STRING",
    "identity STRING",
    "user STRING",
    "time STRING",
    "request STRING",
    "status STRING",
    "size STRING",
    "referer STRING",
    "agent STRING"
  ]
}
```

## Sintaxis
<a name="regex-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ejemplo: nombre de host STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. | Cadena | 
| inputRegEx | La expresión regular para analizar un archivo de entrada de S3. inputRegEx proporciona una forma de recuperar columnas de datos relativamente desestructurados de un archivo. | Cadena | 
| outputFormat | Los campos de columnas recuperados por inputRegEx, pero referenciados como %1\$1s %2\$1s, con la sintaxis del formateador Java. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredarán los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» Id "\$1 myBaseObject | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. | Cadena | 

# Formato de datos TSV
<a name="dp-object-tsv"></a>

Un formato de datos delimitado por comas donde el separador de columnas es un tabulador y el separador de registros es un carácter de nueva línea.

## Ejemplo
<a name="tsv-example"></a>

A continuación se muestra un ejemplo de este tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "TSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxis
<a name="tsv-syntax"></a>


****  

| Campos opcionales | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| columna | Nombre de columna y tipo de dato de los datos que se describen en este nodo de datos. Por ejemplo, "Name STRING" indica una columna denominada Name con los campos del tipo de dato STRING. Separe varios pares de nombre de columna y tipo de dato con comas (tal como se muestra en el ejemplo). | Cadena | 
| columnSeparator | El carácter que separa los campos de una columna de los campos de la siguiente columna. El valor predeterminado es '\$1t'. | Cadena | 
| escapeChar | Un carácter, por ejemplo "\$1", que indica al analizador que omita el carácter siguiente. | Cadena | 
| parent | Elemento principal del objeto actual del que se heredan los slots. | Objeto de referencia, por ejemplo, «parent»: \$1"ref»:» myBaseObject Id "\$1 | 
| recordSeparator | El carácter que separa registros. El valor predeterminado es '\$1n'. | Cadena | 

 


****  

| Campos de tiempo de ejecución | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @version | Versión de la canalización con la que se creó el objeto. | Cadena | 

 


****  

| Campos del sistema | Description (Descripción) | Tipo de slot | 
| --- | --- | --- | 
| @error | Error al describir el objeto mal estructurado. | Cadena | 
| @pipelineId | ID de la canalización a la que pertenece este objeto. | Cadena | 
| @sphere | La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia, que ejecutan objetos de intento. | Cadena | 