

AWS Data Pipeline não está mais disponível para novos clientes. Os clientes existentes do AWS Data Pipeline podem continuar usando o serviço normalmente. [Saiba mais](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Formatos de dados
<a name="dp-object-dataformats"></a>

A seguir estão os objetos AWS Data Pipeline de formato de dados:

**Topics**
+ [Formatos de dados CSV](dp-object-csv.md)
+ [Formato de dados personalizado](dp-object-custom.md)
+ [Formato Dynamo DBData](dp-object-dynamodbdataformat.md)
+ [Dínamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md)
+ [RegEx Formato de dados](dp-object-regex.md)
+ [Formatos de dados TSV](dp-object-tsv.md)

# Formatos de dados CSV
<a name="dp-object-csv"></a>

Um formato de dados delimitado por vírgulas em que o separador de colunas é a vírgula e o separador de registros é o caractere de nova linha.

## Exemplo
<a name="csv-example"></a>

Veja a seguir um exemplo deste tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "CSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxe
<a name="csv-syntax"></a>


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| column | Nome da coluna com o tipo dos dados especificado por campo para os dados descritos por esse nó de dados. Ex: nome de host STRING para vários valores. Use nomes de colunas e tipos de dados separados por um espaço. | String | 
| escapeChar | Um caractere, por exemplo"\$1", que instrui o analisador para ignorar o próximo caractere. | String | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

# Formato de dados personalizado
<a name="dp-object-custom"></a>

Um formato de dados personalizado definido pela combinação de um determinado separador de colunas, separador de registros e caractere de escape.

## Exemplo
<a name="custom-example"></a>

Veja a seguir um exemplo deste tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "Custom",
  "columnSeparator" : ",",
  "recordSeparator" : "\n",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxe
<a name="custom-syntax"></a>


****  

| Campos obrigatórios | Description | Tipo de slot | 
| --- | --- | --- | 
| columnSeparator | Um caractere que indica o fim de uma coluna em um arquivo de dados. | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| column | Nome da coluna com o tipo dos dados especificado por campo para os dados descritos por esse nó de dados. Ex: nome de host STRING para vários valores. Use nomes de colunas e tipos de dados separados por um espaço. | String | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| recordSeparator | Um caractere que indica o fim de uma linha em um arquivo de dados, por exemplo "\$1n". Há suporte apenas para caracteres únicos. | String | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

# Formato Dynamo DBData
<a name="dp-object-dynamodbdataformat"></a>

Aplica um esquema a uma tabela do DynamoDB para que ela possa ser acessada por uma consulta do Hive. O `DynamoDBDataFormat` é usado como um objeto `HiveActivity` e uma entrada e saída `DynamoDBDataNode`. O `DynamoDBDataFormat` exige que você especifique todas as colunas na consulta do Hive. Para ter mais flexibilidade de especificar certas colunas em uma consulta do Hive ou receber suporte para o Amazon S3, consulte [Dínamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md).

**nota**  
Os booleanos do tipos DynamoDB não são mapeados para os tipos booleanos do Hive. No entanto, é possível mapear valores de 0 ou 1 inteiros do DynamoDB para os tipos booleanos do Hive.

## Exemplo
<a name="dynamodbdataformat-example"></a>

O exemplo a seguir mostra como usar `DynamoDBDataFormat` para atribuir um esquema a uma entrada `DynamoDBDataNode`, permitindo que um objeto `HiveActivity` acesse os dados por colunas nomeadas e copie os dados para uma saída `DynamoDBDataNode`. 

```
{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}
```

## Sintaxe
<a name="dynamodbdataformat-syntax"></a>


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| column | O nome da coluna com o tipo dos dados especificado por campo para os dados descritos por esse nó de dados. Por exemplo, .hostname STRING Para vários valores, use nomes de colunas e tipos de dados separados por um espaço. | String | 
| parent | O pai do objeto atual do qual os slots serão herdados. | Objeto de referência, como “parent”: \$1"ref”:” myBaseObject Id "\$1 | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @version | A versão do pipeline usada para criar o objeto. | String | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | O erro ao descrever o objeto malformado. | String | 
| @pipelineId | O ID do pipeline ao qual esse objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

# Dínamo DBExport DataFormat
<a name="dp-object-dynamodbexportdataformat"></a>

Aplica um esquema a uma tabela do DynamoDB para que ela possa ser acessada por uma consulta do Hive. Use `DynamoDBExportDataFormat` com um objeto `HiveCopyActivity` e a entrada e a saída `DynamoDBDataNode` ou `S3DataNode`. O `DynamoDBExportDataFormat` apresenta os seguintes benefícios: 
+ Fornece suporte tanto para o DynamoDB quanto para o Amazon S3
+ Permite que você filtre dados por determinadas colunas na sua consulta do Hive
+ Exporta todos os atributos do DynamoDB mesmo que você tenha um esquema esparso

**nota**  
Os booleanos do tipos DynamoDB não são mapeados para os tipos booleanos do Hive. No entanto, é possível mapear valores de 0 ou 1 inteiros do DynamoDB para os tipos booleanos do Hive.

## Exemplo
<a name="dynamodbexportdataformat-example"></a>

O exemplo a seguir mostra como usar `HiveCopyActivity` e `DynamoDBExportDataFormat` para copiar dados de um `DynamoDBDataNode` para outro ao aplicar filtros com base em um time stamp.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Sintaxe
<a name="dynamodbexportdataformat-syntax"></a>


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| column | Nome da coluna com o tipo dos dados especificado por campo para os dados descritos por esse nó de dados. Ex: hostname STRING | String | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

# RegEx Formato de dados
<a name="dp-object-regex"></a>

Um formato de dados personalizado definido por uma expressão regular.

## Exemplo
<a name="regex-example"></a>

Veja a seguir um exemplo deste tipo de objeto. 

```
{
  "id" : "MyInputDataType",
  "type" : "RegEx",
  "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
  "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s",
  "column" : [
    "host STRING",
    "identity STRING",
    "user STRING",
    "time STRING",
    "request STRING",
    "status STRING",
    "size STRING",
    "referer STRING",
    "agent STRING"
  ]
}
```

## Sintaxe
<a name="regex-syntax"></a>


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| column | Nome da coluna com o tipo dos dados especificado por campo para os dados descritos por esse nó de dados. Ex: nome de host STRING para vários valores. Use nomes de colunas e tipos de dados separados por um espaço. | String | 
| inputRegEx | A expressão regular para analisar um arquivo de entrada do S3. inputRegEx fornece uma maneira de recuperar colunas de dados relativamente não estruturados em um arquivo. | String | 
| outputFormat | Os campos da coluna recuperados por inputRegEx, mas referenciados como %1\$1s %2\$1s usando a sintaxe do formatador Java. | String | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

# Formatos de dados TSV
<a name="dp-object-tsv"></a>

Um formato de dados delimitado por vírgulas em que o separador de colunas é o caractere de tabulação e o separador de registros é o caractere de nova linha.

## Exemplo
<a name="tsv-example"></a>

Veja a seguir um exemplo deste tipo de objeto. 

```
{
  "id" : "MyOutputDataType",
  "type" : "TSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaxe
<a name="tsv-syntax"></a>


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| column | Nome da coluna e o tipo dos dados descritos por esse nó de dados. Por exemplo "Name STRING" indica uma coluna chamada Name com campos para tipo de dados STRING. Separe vários pares de nome da coluna e tipo de dados com vírgulas (como exibido no exemplo). | String | 
| columnSeparator | O caractere que separa os campos em uma coluna de campos na próxima coluna. Assume '\$1t' como padrão. | String | 
| escapeChar | Um caractere, por exemplo"\$1", que instrui o analisador para ignorar o próximo caractere. | String | 
| parent | Pai do objeto atual a partir do qual os slots são herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| recordSeparator | O caractere que separa registros. Assume '\$1n' como padrão. | String | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 