

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mempersiapkan data masukan pihak pertama
<a name="prepare-input-data"></a>

[Langkah-langkah berikut menjelaskan cara menyiapkan data pihak pertama untuk digunakan dalam alur kerja pencocokan berbasis [aturan, alur kerja pencocokan berbasis pembelajaran mesin, atau alur](creating-matching-workflow-rule-based.md)[kerja pemetaan ID](create-matching-workflow-ml.md).](create-id-mapping-workflow.md) 

## Langkah 1: Siapkan tabel data pihak pertama
<a name="prepare-first-party-tables"></a>

Setiap jenis alur kerja yang cocok memiliki serangkaian rekomendasi dan pedoman yang berbeda untuk membantu memastikan kesuksesan.

Untuk menyiapkan tabel data pihak pertama, lihat tabel berikut: 


**Pedoman tabel data pihak pertama**  

| Jenis alur kerja | Diperlukan | 
| --- | --- | 
| Alur kerja pencocokan berbasis aturan dengan tipe aturan Lanjutan |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/entityresolution/latest/userguide/prepare-input-data.html)  | 
| alur kerja pencocokan berbasis aturan dengan tipe aturan Sederhana |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/entityresolution/latest/userguide/prepare-input-data.html)  | 
| alur kerja pencocokan berbasis pembelajaran mesin |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/entityresolution/latest/userguide/prepare-input-data.html)  | 
| Alur kerja pemetaan ID  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/entityresolution/latest/userguide/prepare-input-data.html)  | 

## Langkah 2: Simpan tabel data input Anda dalam format data yang didukung
<a name="save-input-data"></a>

Jika Anda telah menyimpan data input pihak pertama dalam format data yang didukung, Anda dapat melewati langkah ini. 

Untuk menggunakannya Resolusi Entitas AWS, data input harus dalam format yang Resolusi Entitas AWS mendukung. 

Resolusi Entitas AWS mendukung format data berikut:
+ nilai dipisahkan koma (CSV)
+ Parquet

## Langkah 3: Unggah tabel data input Anda ke Amazon S3
<a name="upload-to-s3"></a>

Jika Anda sudah memiliki tabel data pihak pertama di Amazon S3, Anda dapat melewati langkah ini.

**catatan**  
Anda dapat menyimpan data input di Amazon S3Resources di Wilayah mana pun di partisi AWS komersial tempat S3 didukung. Data ini dapat diakses dari Wilayah yang berbeda atau Akun AWS saat menjalankan alur kerja yang cocok.

**Untuk mengunggah tabel data input Anda ke Amazon S3**

1. Masuk ke Konsol Manajemen AWS dan buka konsol Amazon S3 di. [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)

1. Pilih **Bucket**, lalu pilih bucket untuk menyimpan tabel data Anda. 

1. Pilih **Unggah**, lalu ikuti petunjuknya.

1. Pilih tab **Objek** untuk melihat awalan tempat data Anda disimpan. Catat nama folder.

   Anda dapat memilih folder untuk melihat tabel data.

## Langkah 4: Buat AWS Glue tabel
<a name="create-glue-table"></a>

**catatan**  
Jika Anda membutuhkan AWS Glue tabel yang dipartisi, lewati ke. [Langkah 4: Buat tabel yang dipartisi AWS Glue](#create-partitioned-glue-table)

Data input di Amazon S3 harus dikatalogkan AWS Glue dan direpresentasikan sebagai tabel. AWS Glue *Untuk informasi selengkapnya tentang cara membuat AWS Glue tabel dengan Amazon S3 sebagai input, lihat [Bekerja dengan crawler di AWS Glue konsol di Panduan Pengembang](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)AWS Glue .*

Pada langkah ini, Anda menyiapkan crawler yang meng-crawl semua file di bucket S3 dan membuat tabel. AWS Glue AWS Glue 

**catatan**  
Resolusi Entitas AWS saat ini tidak mendukung lokasi Amazon S3 yang terdaftar di. AWS Lake Formation

**Untuk membuat AWS Glue tabel**

1. Masuk ke Konsol Manajemen AWS dan buka AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Dari bilah navigasi, pilih **Crawler**.

1. Pilih bucket S3 Anda dari daftar, lalu pilih **Buat crawler**.

1. **Pada halaman **Setel properti crawler**, masukkan **Deskripsi** opsional **Nama** crawler, lalu pilih Berikutnya.**

1. Lanjutkan melalui **halaman Add crawler**, tentukan detailnya. 

1. **Pada halaman **Pilih peran IAM**, pilih **Pilih peran IAM yang ada**, lalu pilih Berikutnya.**

   Anda juga dapat memilih **Buat peran IAM** atau minta administrator Anda membuat peran IAM jika diperlukan.

1. Untuk **Buat jadwal untuk crawler ini**, pertahankan default **Frekuensi** (**Jalankan sesuai permintaan**) dan kemudian pilih **Berikutnya**.

1. Untuk **Mengkonfigurasi output crawler**, masukkan AWS Glue database dan kemudian pilih **Berikutnya**.

1. Tinjau semua detail, lalu pilih **Selesai**.

1. Pada halaman **Crawler**, pilih kotak centang di samping bucket S3 Anda, lalu pilih **Jalankan** crawler.

1. Setelah crawler selesai berjalan, pada bilah AWS Glue navigasi, pilih **Databases**, dan kemudian pilih nama database Anda.

1. Pada halaman **Database**, pilih **Tabel di \$1nama database Anda\$1**.

   1. Lihat tabel dalam AWS Glue database.

   1. Untuk melihat skema tabel, pilih tabel tertentu.

   1. Buat catatan nama AWS Glue database dan nama AWS Glue tabel.

Anda sekarang siap untuk membuat pemetaan skema. Untuk informasi selengkapnya, lihat [Membuat pemetaan skema](create-schema-mapping.md).

## Langkah 4: Buat tabel yang dipartisi AWS Glue
<a name="create-partitioned-glue-table"></a>

**catatan**  
Fitur AWS Glue partisi hanya didukung dalam alur Resolusi Entitas AWS kerja pemetaan ID. Fitur AWS Glue partisi ini memungkinkan Anda untuk memilih partisi tertentu untuk diproses dengan. Resolusi Entitas AWS  
Jika Anda tidak memerlukan AWS Glue tabel yang dipartisi, Anda dapat melewati langkah ini.

 AWS Glue Tabel yang dipartisi secara otomatis mencerminkan partisi baru dalam AWS Glue tabel saat Anda menambahkan folder baru ke struktur data (seperti folder hari baru di bawah satu bulan). 

Saat Anda membuat AWS Glue tabel yang dipartisi Resolusi Entitas AWS, Anda dapat menentukan partisi mana yang ingin Anda proses dalam alur kerja pemetaan ID. Kemudian, setiap kali Anda menjalankan alur kerja pemetaan ID, hanya data di partisi tersebut yang diproses, daripada memproses semua data di seluruh tabel. AWS Glue Fitur ini memungkinkan pemrosesan data yang lebih tepat, efisien, dan hemat biaya Resolusi Entitas AWS, memberi Anda kontrol dan fleksibilitas yang lebih besar dalam mengelola tugas resolusi entitas Anda. 

Anda dapat membuat AWS Glue tabel yang dipartisi untuk akun sumber dalam alur kerja pemetaan ID. 

Anda harus terlebih dahulu membuat katalog data input di Amazon S3 AWS Glue dan merepresentasikannya sebagai AWS Glue tabel. *Untuk informasi selengkapnya tentang cara membuat AWS Glue tabel dengan Amazon S3 sebagai input, lihat [Bekerja dengan crawler di AWS Glue konsol di Panduan Pengembang](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)AWS Glue .*

Pada langkah ini, Anda menyiapkan crawler yang meng-crawl semua file di bucket S3 lalu membuat tabel yang dipartisi. AWS Glue AWS Glue 

**catatan**  
Resolusi Entitas AWS saat ini tidak mendukung lokasi Amazon S3 yang terdaftar di. AWS Lake Formation

**Untuk membuat tabel yang dipartisi AWS Glue**

1. Masuk ke Konsol Manajemen AWS dan buka AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Dari bilah navigasi, pilih **Crawler**.

1. Pilih bucket S3 Anda dari daftar, lalu pilih **Buat crawler**.

1. **Pada halaman **Setel properti crawler**, masukkan **Nama** crawler, **Deskripsi** opsional, lalu pilih Berikutnya.**

1. Lanjutkan melalui **halaman Add crawler**, tentukan detailnya. 

1. **Pada halaman **Pilih peran IAM**, pilih **Pilih peran IAM yang ada**, lalu pilih Berikutnya.**

   Anda juga dapat memilih **Buat peran IAM** atau minta administrator Anda membuat peran IAM jika diperlukan.

1. Untuk **Buat jadwal untuk crawler ini**, pertahankan default **Frekuensi** (**Jalankan sesuai permintaan**) dan kemudian pilih **Berikutnya**.

1. Untuk **Mengkonfigurasi output crawler**, masukkan AWS Glue database dan kemudian pilih **Berikutnya**.

1. Tinjau semua detail, lalu pilih **Selesai**.

1. Pada halaman **Crawler**, pilih kotak centang di samping bucket S3 Anda, lalu pilih **Jalankan** crawler.

1. Setelah crawler selesai berjalan, pada bilah AWS Glue navigasi, pilih **Databases**, dan kemudian pilih nama database Anda.

1. Pada halaman **Database**, di bawah **Tabel**, pilih tabel yang akan dipartisi.

1. Pada **ikhtisar Tabel**, pilih dropdown **Tindakan**, lalu pilih **Edit** tabel.

   1. Di bawah **Properti tabel**, pilih **Tambah**.

   1. Untuk **Kunci** baru, masukkan**aerPushDownPredicateString**.

   1. Untuk **Nilai** baru, masukkan**'<PartitionKey>=<PartitionValue'**.

   1. Buat catatan nama AWS Glue database dan nama AWS Glue tabel.

Anda sekarang siap untuk: 
+ [Buat pemetaan skema](create-schema-mapping.md) dan kemudian [buat alur kerja pemetaan ID untuk satu](creating-id-mapping-workflow-same-account.md). Akun AWS
+ [Buat sumber namespace ID](create-id-namespace-source.md), [buat target namespace ID](create-id-namespace-target.md), lalu [buat alur kerja pemetaan ID](creating-id-mapping-workflow-two-accounts.md) di dua. Akun AWS