

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peuvent continuer à utiliser le service normalement. [En savoir plus](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Formats de données
<a name="dp-object-dataformats"></a>

Les objets de format de AWS Data Pipeline données sont les suivants :

**Topics**
+ [Format de données CSV](dp-object-csv.md)
+ [Format de données personnalisé](dp-object-custom.md)
+ [Format Dynamo DBData](dp-object-dynamodbdataformat.md)
+ [Dynamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md)
+ [RegEx Format des données](dp-object-regex.md)
+ [Format de données TSV](dp-object-tsv.md)

# Format de données CSV
<a name="dp-object-csv"></a>

Format de données séparées par des virgules dans lequel le séparateur de colonnes est une virgule et le séparateur d'enregistrements un caractère de nouvelle ligne.

## Exemple
<a name="csv-example"></a>

Voici un exemple de ce type d'objet. 

```
{
  "id" : "MyOutputDataType",
  "type" : "CSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntaxe
<a name="csv-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Exemple : nom d'hôte STRING. Pour plusieurs valeurs, utilisez les noms de colonnes et les types de données séparés par un espace. | String | 
| escapeChar | Caractère (\$1, par exemple) qui indique à l'analyseur d'ignorer le caractère suivant. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# Format de données personnalisé
<a name="dp-object-custom"></a>

Format de données personnalisé défini par la combinaison d'un séparateur de colonnes, d'un séparateur d'enregistrements et du caractère d'échappement.

## Exemple
<a name="custom-example"></a>

Voici un exemple de ce type d'objet. 

```
{
  "id" : "MyOutputDataType",
  "type" : "Custom",
  "columnSeparator" : ",",
  "recordSeparator" : "\n",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntaxe
<a name="custom-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| columnSeparator | Caractère qui indique la fin d'une colonne dans un fichier de données. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Exemple : nom d'hôte STRING. Pour plusieurs valeurs, utilisez les noms de colonnes et les types de données séparés par un espace. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| recordSeparator | Caractère qui indique la fin d'une ligne dans un fichier de données, par exemple \$1n. Seuls les caractères uniques sont pris en charge. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# Format Dynamo DBData
<a name="dp-object-dynamodbdataformat"></a>

Applique un schéma à une table DynamoDB pour la rendre accessible par une requête Hive. `DynamoDBDataFormat`est utilisé avec un `HiveActivity` objet et une `DynamoDBDataNode` entrée et une sortie. `DynamoDBDataFormat`nécessite que vous spécifiiez toutes les colonnes de votre requête Hive. Pour plus de flexibilité dans la spécification de certaines colonnes dans une requête Hive ou pour le support Amazon S3, consultez[Dynamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md).

**Note**  
Les types booléens DynamoDB ne sont pas mappés aux types booléens Hive. Cependant, il est possible de mapper les valeurs entières DynamoDB de 0 ou 1 avec les types booléens Hive.

## Exemple
<a name="dynamodbdataformat-example"></a>

L'exemple suivant montre comment utiliser `DynamoDBDataFormat` pour attribuer un schéma à une entrée `DynamoDBDataNode`, qui permet à un objet `HiveActivity` d'accéder aux données par colonnes nommées et de copier les données vers une sortie `DynamoDBDataNode`. 

```
{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}
```

## Syntaxe
<a name="dynamodbdataformat-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Par exemple, hostname STRING. Pour plusieurs valeurs, utilisez des noms de colonnes et des types de données séparés par un espace. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, tel que « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version de pipeline utilisée pour créer l'objet. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# Dynamo DBExport DataFormat
<a name="dp-object-dynamodbexportdataformat"></a>

Applique un schéma à une table DynamoDB pour la rendre accessible par une requête Hive. Utilisez `DynamoDBExportDataFormat` avec un objet `HiveCopyActivity`, et une entrée et une sortie `DynamoDBDataNode` ou `S3DataNode`. `DynamoDBExportDataFormat` offre les avantages suivants : 
+ Fournit le support de DynamoDB et d'Amazon S3
+ Permet de filtrer des données sur certaines colonnes dans votre requête Hive.
+ Exporte tous les attributs depuis DynamoDB même si vous avez un schéma fragmenté

**Note**  
Les types booléens DynamoDB ne sont pas mappés aux types booléens Hive. Cependant, il est possible de mapper les valeurs entières DynamoDB de 0 ou 1 avec les types booléens Hive.

## Exemple
<a name="dynamodbexportdataformat-example"></a>

L'exemple suivant montre comment utiliser `HiveCopyActivity` et `DynamoDBExportDataFormat` pour copier les données d'un `DynamoDBDataNode` dans un autre, tout en filtrant les données en fonction de l'horodatage.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Syntaxe
<a name="dynamodbexportdataformat-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Exemple : nom d'hôte CHAINE | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# RegEx Format des données
<a name="dp-object-regex"></a>

Format de données personnalisé défini par une expression régulière.

## Exemple
<a name="regex-example"></a>

Voici un exemple de ce type d'objet. 

```
{
  "id" : "MyInputDataType",
  "type" : "RegEx",
  "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
  "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s",
  "column" : [
    "host STRING",
    "identity STRING",
    "user STRING",
    "time STRING",
    "request STRING",
    "status STRING",
    "size STRING",
    "referer STRING",
    "agent STRING"
  ]
}
```

## Syntaxe
<a name="regex-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Exemple : nom d'hôte STRING. Pour plusieurs valeurs, utilisez les noms de colonnes et les types de données séparés par un espace. | String | 
| inputRegEx | Expression régulière pour analyser un fichier d'entrée S3. inputRegEx permet de récupérer des colonnes à partir de données relativement peu structurées d'un fichier. | String | 
| outputFormat | Les champs de colonne extraits par inputRegEx, mais référencés sous la forme %1\$1s %2\$1s à l'aide de la syntaxe du formateur Java. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# Format de données TSV
<a name="dp-object-tsv"></a>

Format de données séparées par des virgules dans lequel le séparateur de colonnes est le caractère de tabulation et le séparateur d'enregistrements un caractère de nouvelle ligne.

## Exemple
<a name="tsv-example"></a>

Voici un exemple de ce type d'objet. 

```
{
  "id" : "MyOutputDataType",
  "type" : "TSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntaxe
<a name="tsv-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne et type des données décrites par ce nœud de données. Par exemple, "Name STRING" désigne une colonne nommée Name avec des champs de type de données STRING. Séparez les paires nom de colonne-type de données avec des virgules (comme indiqué dans l'exemple). | String | 
| columnSeparator | Caractère de séparation des champs d'une colonne des champs de la colonne suivante. La valeur par défaut est '\$1t'. | String | 
| escapeChar | Caractère (\$1, par exemple) qui indique à l'analyseur d'ignorer le caractère suivant. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| recordSeparator | Caractère de séparation des enregistrements. La valeur par défaut est '\$1n'. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance », qui exécutent les objets « tentative ». | String | 