Menemukan kecocokan tambahan - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menemukan kecocokan tambahan

Fitur Temukan kecocokan memungkinkan Anda mengidentifikasi rekaman duplikat atau pencocokan dalam kumpulan data Anda, bahkan ketika catatan tidak memiliki pengenal unik yang umum dan tidak ada bidang yang sama persis. Rilis awal Find match mengubah catatan pencocokan yang diidentifikasi dalam satu kumpulan data. Saat menambahkan data baru ke kumpulan data, Anda harus menggabungkannya dengan kumpulan data bersih yang ada dan menjalankan kembali pencocokan dengan kumpulan data gabungan lengkap.

Fitur pencocokan inkremental membuatnya lebih mudah untuk mencocokkan catatan tambahan terhadap kumpulan data yang cocok. Misalkan Anda ingin mencocokkan data prospek dengan kumpulan data pelanggan yang ada. Kemampuan kecocokan tambahan memberi Anda fleksibilitas untuk mencocokkan ratusan ribu prospek baru dengan basis data prospek dan pelanggan yang ada dengan menggabungkan hasilnya ke dalam satu database atau tabel. Dengan hanya mencocokkan antara kumpulan data baru dan yang sudah ada, optimasi kecocokan tambahan find mengurangi waktu komputasi, yang juga mengurangi biaya.

Penggunaan pencocokan inkremental mirip dengan Temukan kecocokan seperti yang dijelaskan dalamTutorial: Membuat transformasi pembelajaran mesin dengan AWS Glue. Topik ini hanya mengidentifikasi perbedaan dengan pencocokan inkremental.

Untuk informasi lebih lanjut, lihat posting blog tentang Pencocokan data tambahan.

Menjalankan pekerjaan pencocokan tambahan

Untuk prosedur berikut, misalkan yang berikut:

  • Anda telah meng-crawl dataset yang ada ke dalam tabel first_records. Dataset first_records harus berupa kumpulan data yang cocok, atau output dari pekerjaan yang cocok.

  • Anda telah membuat dan melatih transformasi Find match dengan AWS Glue versi 2.0. Ini adalah satu-satunya versi AWS Glue yang mendukung kecocokan tambahan.

  • Bahasa ETL adalah Scala. Perhatikan bahwa Python juga didukung.

  • Model yang sudah dihasilkan disebutdemo-xform.

  1. Merayapi kumpulan data tambahan ke tabel second_records.

  2. Pada konsol AWS Glue, di panel navigasi, pilih Tugas.

  3. Pilih Tambahkan tugas, dan ikuti langkah-langkah yang ada di penuntun untuk membuat tugas ETL Spark dengan skrip yang sudah dihasilkan. Pilih nilai-nilai properti berikut untuk transformasi Anda:

    1. Untuk Nama, pilih demo-etl.

    2. Untuk peran IAM, pilih peran IAM dengan izin ke data sumber Amazon S3, file pelabelan, dan operasi API. AWS Glue

    3. Untuk Bahasa ETL, pilih Scala.

    4. Untuk nama file Script, pilih demo-etl. Ini adalah nama file dari skrip Scala.

    5. Untuk sumber Data, pilih first_records. Sumber data yang Anda pilih harus sesuai dengan skema sumber data transformasi machine learning.

    6. Untuk Jenis transformasi, pilih Temukan catatan yang cocok untuk membuat sebuah tugas dengan menggunakan transformasi machine learning.

    7. Pilih opsi pencocokan tambahan, dan untuk Sumber Data pilih tabel bernama second_records.

    8. Untuk Transform, pilih demo-xform, transformasi pembelajaran mesin yang digunakan oleh pekerjaan.

    9. Pilih Buat tabel di target data Anda atau Gunakan tabel di katalog data dan perbarui target data Anda.

  4. Pilih Simpan tugas dan edit skrip untuk menampilkan halaman editor skrip.

  5. Pilih Jalankan tugas untuk memulai eksekusi tugas.