

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. [Weitere Informationen](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Datenformate
<a name="dp-object-dataformats"></a>

Im Folgenden sind die AWS Data Pipeline Datenformat-Objekte aufgeführt:

**Topics**
+ [CSV-Datenformate](dp-object-csv.md)
+ [Custom Data Format](dp-object-custom.md)
+ [Dynamo-Format DBData](dp-object-dynamodbdataformat.md)
+ [Dynamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md)
+ [RegEx Datenformat](dp-object-regex.md)
+ [TSV-Datenformate](dp-object-tsv.md)

# CSV-Datenformate
<a name="dp-object-csv"></a>

Ein durch Kommas getrenntes Datenformat, bei dem das Trennzeichen für Spalten ein Komma und das Datensatztrennzeichen ein Zeilenumbruch ist.

## Beispiel
<a name="csv-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

```
{
  "id" : "MyOutputDataType",
  "type" : "CSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntax
<a name="csv-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname mit Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel: Bei Hostname STRING verwenden Sie für mehrere Werte Spaltennamen und Datentypen, die durch ein Leerzeichen getrennt sind. | Zeichenfolge | 
| escapeChar | Ein Zeichen (z. B."\$1"), das den Parser anweist, das nächste Zeichen zu ignorieren. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# Custom Data Format
<a name="dp-object-custom"></a>

Ein benutzerdefiniertes Datenformat, das auf einer Kombination eines bestimmten Spaltentrennzeichens, Datensatztrennzeichens und des Escape-Zeichens basiert.

## Beispiel
<a name="custom-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

```
{
  "id" : "MyOutputDataType",
  "type" : "Custom",
  "columnSeparator" : ",",
  "recordSeparator" : "\n",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntax
<a name="custom-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| columnSeparator | Das Zeichen, mit dem das Ende einer Spalte in einer Datendatei kennzeichnet wird. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname mit Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel: Bei Hostname STRING verwenden Sie für mehrere Werte Spaltennamen und Datentypen, die durch ein Leerzeichen getrennt sind. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| recordSeparator | Das Zeichen, mit dem das Ende einer Zeile in einer Datendatei kennzeichnet wird, z. B. "\$1n". Es werden nur einzelne Zeichen unterstützt. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# Dynamo-Format DBData
<a name="dp-object-dynamodbdataformat"></a>

Wendet ein Schema auf eine DynamoDB-Tabelle an, um sie über eine Hive-Abfrage zugänglich zu machen. `DynamoDBDataFormat`wird mit einem `HiveActivity` Objekt und einer `DynamoDBDataNode` Eingabe und Ausgabe verwendet. `DynamoDBDataFormat`erfordert, dass Sie alle Spalten in Ihrer Hive-Abfrage angeben. Mehr Flexibilität bei der Angabe bestimmter Spalten in einer Hive-Abfrage oder Amazon S3 S3-Unterstützung finden Sie unter[Dynamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md).

**Anmerkung**  
Boolesche DynamoDB-Typen sind nicht zu booleschen Hive-Typen zugeordnet. Es ist aber möglich, DynamoDB-Ganzzahlwerte von 0 oder 1 den booleschen Hive-Typen zuzuordnen.

## Beispiel
<a name="dynamodbdataformat-example"></a>

Das folgende Beispiel zeigt, wie Sie mit `DynamoDBDataFormat` ein Schema einer `DynamoDBDataNode`-Eingabe zuweisen, wodurch ein `HiveActivity`-Objekt auf die Daten nach benannten Spalten zugreifen und die Daten in eine `DynamoDBDataNode`-Ausgabe kopieren kann. 

```
{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}
```

## Syntax
<a name="dynamodbdataformat-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Der Spaltenname mit dem Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel, hostname STRING. Verwenden Sie für mehrere Werte Spaltennamen und Datentypen, die durch ein Leerzeichen getrennt sind. | Zeichenfolge | 
| übergeordneter | Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Die Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Der Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Die Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Dynamo DBExport DataFormat
<a name="dp-object-dynamodbexportdataformat"></a>

Wendet ein Schema auf eine DynamoDB-Tabelle an, um sie über eine Hive-Abfrage zugänglich zu machen. Verwenden Sie `DynamoDBExportDataFormat` zusammen mit einem `HiveCopyActivity`-Objekt und `DynamoDBDataNode` oder der `S3DataNode`-Ein- und Ausgabe. `DynamoDBExportDataFormat` hat folgende Vorteile: 
+ Bietet sowohl DynamoDB- als auch Amazon S3 S3-Unterstützung
+ Ermöglicht das Filtern von Daten nach bestimmten Spalten in der Hive-Abfrage
+ Exportiert alle Attribute aus DynamoDB, auch wenn Sie ein dünnes Schema haben

**Anmerkung**  
Boolesche DynamoDB-Typen sind nicht zu booleschen Hive-Typen zugeordnet. Es ist aber möglich, DynamoDB-Ganzzahlwerte von 0 oder 1 den booleschen Hive-Typen zuzuordnen.

## Beispiel
<a name="dynamodbexportdataformat-example"></a>

Das folgende Beispiel zeigt, wie Sie mit `HiveCopyActivity` und `DynamoDBExportDataFormat` Daten von einem `DynamoDBDataNode` auf einen anderen kopieren können, während gleichzeitig Daten basierend auf einem Zeitstempel gefiltert werden.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Syntax
<a name="dynamodbexportdataformat-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname mit Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel: hostname STRING | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# RegEx Datenformat
<a name="dp-object-regex"></a>

Ein benutzerdefiniertes Datenformat, das durch einen regulären Ausdruck definiert wird.

## Beispiel
<a name="regex-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

```
{
  "id" : "MyInputDataType",
  "type" : "RegEx",
  "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
  "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s",
  "column" : [
    "host STRING",
    "identity STRING",
    "user STRING",
    "time STRING",
    "request STRING",
    "status STRING",
    "size STRING",
    "referer STRING",
    "agent STRING"
  ]
}
```

## Syntax
<a name="regex-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname mit Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel: Bei Hostname STRING verwenden Sie für mehrere Werte Spaltennamen und Datentypen, die durch ein Leerzeichen getrennt sind. | Zeichenfolge | 
| inputRegEx | Der reguläre Ausdruck zum Analysieren einer S3-Eingabedatei. inputRegEx bietet eine Möglichkeit, Spalten aus relativ unstrukturierten Daten in einer Datei abzurufen. | Zeichenfolge | 
| outputFormat | Die Spaltenfelder wurden von %1\$1s %2\$1s abgerufen inputRegEx, aber mithilfe der Java-Formatierungssyntax als %1\$1s %2\$1s referenziert. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ Id "\$1 myBaseObject | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# TSV-Datenformate
<a name="dp-object-tsv"></a>

Ein durch Kommas getrenntes Datenformat, bei dem das Trennzeichen für Spalten ein Tabulatorzeichen und das Datensatztrennzeichen ein Zeilenumbruch ist.

## Beispiel
<a name="tsv-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

```
{
  "id" : "MyOutputDataType",
  "type" : "TSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntax
<a name="tsv-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname und Datentyp der Daten, die von diesem Datenknoten beschrieben werden. So gibt "Name STRING" eine Spalte mit dem Namen Name und dem Datentyp STRING an. Trennen Sie mehrere Spaltenname/Datentyp-Paare durch Kommas (wie im Beispiel gezeigt). | Zeichenfolge | 
| columnSeparator | Das Zeichen, mit dem die Felder einer Spalte von den Feldern der nächsten Spalte getrennt werden. Standardeinstellung: "\$1t". | Zeichenfolge | 
| escapeChar | Ein Zeichen (z. B."\$1"), das den Parser anweist, das nächste Zeichen zu ignorieren. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| recordSeparator | Das Zeichen, das die Datensätze voneinander trennt. Standardeinstellung: "\$1n". | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 