Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Menggunakan Drop Duplikat

Mode fokus
Menggunakan Drop Duplikat - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Transformasi Drop Duplicates menghapus baris dari sumber data Anda dengan memberi Anda dua opsi. Anda dapat memilih untuk menghapus baris duplikat yang benar-benar sama, atau Anda dapat memilih untuk memilih bidang yang cocok dan hanya menghapus baris tersebut berdasarkan bidang yang Anda pilih.

Misalnya, dalam kumpulan data ini, Anda memiliki baris duplikat di mana semua nilai di beberapa baris persis sama dengan baris lain, dan beberapa nilai dalam baris sama atau berbeda.

Baris Nama Email Umur Status Catatan
1 Sukacita sukacita @gmail 33 NY
2 Tim tim @gmail 45 OH
3 Mawar mawar @gmail 23 NJ
4 Tim tim @gmail 42 OH
5 Mawar mawar @gmail 23 NJ
6 Tim tim @gmail 42 OH ini adalah baris duplikat dan cocok sepenuhnya pada semua nilai sebagai baris #4
7 Mawar mawar @gmail 23 NJ Ini adalah baris duplikat dan cocok sepenuhnya pada semua nilai sebagai baris #5

Jika Anda memilih untuk mencocokkan seluruh baris, baris 6 dan 7 akan dihapus dari kumpulan data. Kumpulan data sekarang:

Baris Nama Email Umur Status
1 Sukacita sukacita @gmail 33 NY
2 Tim tim @gmail 45 OH
3 Mawar mawar @gmail 23 NJ
4 Tim tim @gmail 42 OH
5 Mawar mawar @gmail 23 NJ

Jika Anda memilih untuk menentukan kunci, Anda dapat memilih untuk menghapus baris yang cocok dengan 'nama' dan 'email'. Ini memberi Anda kontrol yang lebih baik tentang apa yang dimaksud dengan 'baris duplikat' untuk kumpulan data Anda. Dengan menentukan 'nama' dan 'email', kumpulan data sekarang:

Baris Nama Email Umur Status
1 Sukacita sukacita @gmail 33 NY
2 Tim tim @gmail 45 OH
3 Mawar mawar @gmail 23 NJ

Beberapa hal yang perlu diingat:

  • Agar baris dikenali sebagai duplikat, nilainya peka huruf besar. semua nilai dalam baris harus memiliki casing yang sama - ini berlaku untuk salah satu opsi yang Anda pilih (Cocokkan seluruh baris atau Tentukan kunci).

  • Semua nilai dibaca sebagai string.

  • Transformasi Drop Duplicates menggunakan perintah Spark DropDuplicates.

  • Saat menggunakan transformasi Drop Duplicates, baris pertama disimpan dan baris lainnya dijatuhkan.

  • Transformasi Drop Duplicates tidak mengubah skema kerangka data. Jika Anda memilih untuk menentukan kunci, semua bidang disimpan dalam kerangka data yang dihasilkan.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.