

AWS Data Pipeline tidak lagi tersedia untuk pelanggan baru. Pelanggan yang sudah ada AWS Data Pipeline dapat terus menggunakan layanan seperti biasa. [Pelajari selengkapnya](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Format Data
<a name="dp-object-dataformats"></a>

Berikut ini adalah objek format AWS Data Pipeline data:

**Topics**
+ [Format Data CSV](dp-object-csv.md)
+ [Format Data Kustom](dp-object-custom.md)
+ [Format Dinamo DBData](dp-object-dynamodbdataformat.md)
+ [Dinamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md)
+ [RegEx Format Data](dp-object-regex.md)
+ [Format Data TSV](dp-object-tsv.md)

# Format Data CSV
<a name="dp-object-csv"></a>

Format data yang dibatasi koma di mana pemisah kolom adalah koma dan pemisah catatan adalah karakter baris baru.

## Contoh
<a name="csv-example"></a>

Berikut adalah contoh dari jenis objek ini. 

```
{
  "id" : "MyOutputDataType",
  "type" : "CSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaksis
<a name="csv-syntax"></a>


****  

| Bidang Opsional | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| kolom | Nama kolom dengan jenis data yang ditentukan oleh masing-masing bidang untuk data yang dijelaskan oleh simpul data ini. Contoh: hostname STRING Untuk beberapa nilai, menggunakan nama kolom dan tipe data yang dipisahkan oleh spasi. | String | 
| escapeChar | Sebuah karakter, misalnya "\$1", yang menginstruksikan parser untuk mengabaikan karakter berikutnya. | String | 
| induk | Induk dari objek saat ini dari mana slot akan diwariskan. | Objek Referensi, misalnya “induk”: \$1"ref”:” myBaseObject Id "\$1 | 

 


****  

| Bidang Runtime | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @version | Versi alur objek dibuat dengan. | String | 

 


****  

| Bidang Sistem | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @error | Galat mendeskripsikan obyek yang tidak terbentuk | String | 
| @pipelineId | Id dari alur tempat objek ini berada | String | 
| @sphere | Lingkup dari sebuah objek menunjukkan tempatnya dalam siklus hidup: Component Objects memunculkan Instance Objects yang mengeksekusi Attempt Objects | String | 

# Format Data Kustom
<a name="dp-object-custom"></a>

Format data kustom yang didefinisikan oleh kombinasi pemisah kolom tertentu, pemisah catatan, dan karakter escape.

## Contoh
<a name="custom-example"></a>

Berikut adalah contoh dari jenis objek ini. 

```
{
  "id" : "MyOutputDataType",
  "type" : "Custom",
  "columnSeparator" : ",",
  "recordSeparator" : "\n",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaksis
<a name="custom-syntax"></a>


****  

| Bidang yang Wajib Diisi | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| columnSeparator | Sebuah karakter yang menunjukkan akhir kolom dalam file data. | String | 

 


****  

| Bidang Opsional | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| kolom | Nama kolom dengan jenis data yang ditentukan oleh masing-masing bidang untuk data yang dijelaskan oleh simpul data ini. Contoh: hostname STRING Untuk beberapa nilai, menggunakan nama kolom dan tipe data yang dipisahkan oleh spasi. | String | 
| induk | Induk dari objek saat ini dari mana slot akan diwariskan. | Objek Referensi, misalnya “induk”: \$1"ref”:” myBaseObject Id "\$1 | 
| recordSeparator | Karakter yang menunjukkan akhir baris dalam file data, misalnya "\$1n". Hanya karakter tunggal yang disupport. | String | 

 


****  

| Bidang Runtime | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @version | Versi alur objek dibuat dengan. | String | 

 


****  

| Bidang Sistem | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @error | Galat mendeskripsikan obyek yang tidak terbentuk | String | 
| @pipelineId | Id dari alur tempat objek ini berada | String | 
| @sphere | Lingkup dari sebuah objek menunjukkan tempatnya dalam siklus hidup: Component Objects memunculkan Instance Objects yang mengeksekusi Attempt Objects | String | 

# Format Dinamo DBData
<a name="dp-object-dynamodbdataformat"></a>

Berlaku skema untuk tabel DynamoDB untuk membuatnya dapat diakses oleh kueri Hive. `DynamoDBDataFormat` digunakan dengan objek `HiveActivity` dan input dan output `DynamoDBDataNode`. `DynamoDBDataFormat` mengharuskan Anda menentukan semua kolom dalam kueri Hive Anda. Untuk lebih banyak fleksibilitas untuk menentukan kolom tertentu dalam kueri Hive atau support Amazon S3, lihat [Dinamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md).

**catatan**  
Jenis DynamoDB Boolean tidak dipetakan ke jenis Hive Boolean. Namun, adalah mungkin untuk memetakan nilai integer DynamoDB 0 atau 1 untuk jenis Hive Boolean.

## Contoh
<a name="dynamodbdataformat-example"></a>

Contoh berikut menunjukkan cara menggunakan `DynamoDBDataFormat` untuk menetapkan skema untuk input `DynamoDBDataNode`, yang mengizinkan objek `HiveActivity` untuk mengakses data dengan kolom bernama dan menyalin data ke output `DynamoDBDataNode`. 

```
{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}
```

## Sintaksis
<a name="dynamodbdataformat-syntax"></a>


****  

| Bidang Opsional | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| kolom | Nama kolom dengan jenis data yang ditentukan oleh masing-masing bidang untuk data yang dijelaskan oleh simpul data ini. Misalnya, hostname STRING. Untuk beberapa nilai, gunakan nama kolom dan tipe data yang dipisahkan oleh spasi. | String | 
| induk | Induk dari objek saat ini dari mana slot akan diwariskan. | Objek Referensi, seperti “parent”: \$1"ref”:” myBaseObject Id "\$1 | 

 


****  

| Bidang Runtime | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @version | Versi alur digunakan untuk membuat objek. | String | 

 


****  

| Bidang Sistem | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @error | Kesalahan yang menggambarkan objek yang tidak terbentuk. | String | 
| @pipelineId | Id dari alur tempat objek ini berada. | String | 
| @sphere | Lingkup objek menunjukkan tempatnya dalam siklus hidup: Component Objects memunculkan Instance Objects yang mengeksekusi Attempt Objects. | String | 

# Dinamo DBExport DataFormat
<a name="dp-object-dynamodbexportdataformat"></a>

Berlaku skema untuk tabel DynamoDB untuk membuatnya dapat diakses oleh kueri Hive. Gunakan `DynamoDBExportDataFormat` dengan objek `HiveCopyActivity` dan `DynamoDBDataNode` atau `S3DataNode` input dan output. `DynamoDBExportDataFormat` memiliki manfaat berikut: 
+ Memberikan support DynamoDB dan Amazon S3
+ Mengizinkan Anda untuk mem-filter data dengan kolom tertentu dalam kueri Hive Anda
+ Ekspor semua atribut dari DynamoDB bahkan jika Anda memiliki skema tersebar

**catatan**  
Jenis DynamoDB Boolean tidak dipetakan ke jenis Hive Boolean. Namun, adalah mungkin untuk memetakan nilai integer DynamoDB 0 atau 1 untuk jenis Hive Boolean.

## Contoh
<a name="dynamodbexportdataformat-example"></a>

Contoh berikut menunjukkan cara menggunakan `HiveCopyActivity` dan `DynamoDBExportDataFormat` untuk menyalin data dari satu `DynamoDBDataNode` ke yang lain, sambil mem-filter berdasarkan stempel waktu.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Sintaksis
<a name="dynamodbexportdataformat-syntax"></a>


****  

| Bidang Opsional | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| kolom | Nama kolom dengan jenis data yang ditentukan oleh masing-masing bidang untuk data yang dijelaskan oleh simpul data ini. Contoh: nama host STRING | String | 
| induk | Induk dari objek saat ini dari mana slot akan diwariskan. | Objek Referensi, misalnya “induk”: \$1"ref”:” myBaseObject Id "\$1 | 

 


****  

| Bidang Runtime | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @version | Versi alur objek dibuat dengan. | String | 

 


****  

| Bidang Sistem | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @error | Galat mendeskripsikan obyek yang tidak terbentuk | String | 
| @pipelineId | Id dari alur tempat objek ini berada | String | 
| @sphere | Lingkup dari sebuah objek menunjukkan tempatnya dalam siklus hidup: Component Objects memunculkan Instance Objects yang mengeksekusi Attempt Objects | String | 

# RegEx Format Data
<a name="dp-object-regex"></a>

Format data kustom yang didefinisikan oleh ekspresi reguler.

## Contoh
<a name="regex-example"></a>

Berikut adalah contoh dari jenis objek ini. 

```
{
  "id" : "MyInputDataType",
  "type" : "RegEx",
  "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
  "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s",
  "column" : [
    "host STRING",
    "identity STRING",
    "user STRING",
    "time STRING",
    "request STRING",
    "status STRING",
    "size STRING",
    "referer STRING",
    "agent STRING"
  ]
}
```

## Sintaksis
<a name="regex-syntax"></a>


****  

| Bidang Opsional | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| kolom | Nama kolom dengan jenis data yang ditentukan oleh masing-masing bidang untuk data yang dijelaskan oleh simpul data ini. Contoh: hostname STRING Untuk beberapa nilai, menggunakan nama kolom dan tipe data yang dipisahkan oleh spasi. | String | 
| inputRegEx | Ekspresi reguler untuk mengurai file input S3. inputRegEx menyediakan cara untuk mengambil kolom dari data yang relatif tidak terstruktur dalam file. | String | 
| outputFormat | Kolom kolom diambil oleh inputRegEx, tetapi direferensikan sebagai %1\$1s %2\$1s menggunakan sintaks pemformat Java. | String | 
| induk | Induk dari objek saat ini dari mana slot akan diwariskan. | Objek Referensi, misalnya “induk”: \$1"ref”:” myBaseObject Id "\$1 | 

 


****  

| Bidang Runtime | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @version | Versi alur objek dibuat dengan. | String | 

 


****  

| Bidang Sistem | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @error | Galat mendeskripsikan obyek yang tidak terbentuk | String | 
| @pipelineId | Id dari alur tempat objek ini berada | String | 
| @sphere | Lingkup dari sebuah objek menunjukkan tempatnya dalam siklus hidup: Component Objects memunculkan Instance Objects yang mengeksekusi Attempt Objects | String | 

# Format Data TSV
<a name="dp-object-tsv"></a>

Format data yang dibatasi koma di mana pemisah kolom adalah karakter tab dan pemisah catatan adalah karakter baris baru.

## Contoh
<a name="tsv-example"></a>

Berikut adalah contoh dari jenis objek ini. 

```
{
  "id" : "MyOutputDataType",
  "type" : "TSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Sintaksis
<a name="tsv-syntax"></a>


****  

| Bidang Opsional | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| kolom | Nama kolom dan tipe data untuk data yang dijelaskan oleh simpul data ini. Misalnya "Name STRING" menunjukkan sebuah kolom bernama Name dengan bidang tipe data STRING. Pisahkan beberapa nama kolom dan tipe data pasangan dengan koma (seperti yang ditunjukkan pada contoh). | String | 
| columnSeparator | Karakter yang memisahkan bidang dalam satu kolom dari bidang di kolom berikutnya. Secara default ke '\$1t'. | String | 
| escapeChar | Sebuah karakter, misalnya "\$1", yang menginstruksikan parser untuk mengabaikan karakter berikutnya. | String | 
| induk | Induk dari objek saat ini dari mana slot diwariskan. | Objek Referensi, misalnya, “induk”: \$1"ref”:” myBaseObject Id "\$1 | 
| recordSeparator | Karakter yang memisahkan catatan. Secara default ke '\$1n'. | String | 

 


****  

| Bidang Runtime | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @version | Versi alur tempat objek dibuat. | String | 

 


****  

| Bidang Sistem | Deskripsi | Jenis Slot | 
| --- | --- | --- | 
| @error | Galat menggambarkan objek yang tidak terbentuk. | String | 
| @pipelineId | ID dari alur tempat objek ini berada. | String | 
| @sphere | Lingkup objek menunjukkan tempatnya dalam siklus hidup: Component Objects memunculkan Instance Objects, yang mengeksekusi Attempt Objects. | String | 