Memutuskan antara presisi dan mengingat - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memutuskan antara presisi dan mengingat

Setiap transformasi FindMatches berisi parameter precision-recall. Anda menggunakan parameter tersebut untuk menentukan salah satu hal berikut ini:

  • Jika Anda lebih peduli tentang transformasi yang keliru melaporkan bahwa dua catatan cocok ketika mereka sebenarnya tidak cocok, maka Anda harus menekankan pada precision.

  • Jika Anda lebih peduli tentang transformasi yang gagal untuk mendeteksi catatan yang sebenarnya cocok, maka Anda harus menekankan pada recall.

Anda dapat melakukan trade-off ini di konsol AWS Glue atau menggunakan operasi API machine learning AWS Glue.

Kapan harus mendukung presisi

Dukung precision jika Anda lebih peduli tentang risiko jika FindMatches menghasilkan sepasang catatan yang cocok ketika mereka sebenarnya tidak cocok. Untuk mendukung precision, pilih nilai trade-off dari precision-recall yang lebih tinggi. Dengan nilai yang lebih tinggi, transformasi FindMatches akan membutuhkan lebih banyak bukti untuk memutuskan bahwa sepasang catatan harus dicocokkan. Transformasi disetel untuk cenderung ke arah yang mengatakan bahwa catatan tidak cocok.

Misalnya, bayangkan bahwa Anda menggunakan FindMatches untuk mendeteksi item duplikat dalam katalog video, dan Anda memberikan nilai precision-recall yang lebih tinggi untuk transformasi tersebut. Jika transformasi Anda salah mendeteksi bahwa Star Wars: A New Hope adalah sama dengan Star Wars: The Empire Strikes Back, maka seorang pelanggan yang ingin A New Hope mungkin ditampilkan The Empire Strikes Back. Ini akan menjadi pengalaman pelanggan yang buruk.

Namun, jika transformasi tersebut gagal untuk mendeteksi bahwa Star Wars: A New Hope dan Star Wars: Episode IV—A New Hope adalah item yang sama, maka pelanggan mungkin bingung pada awalnya tapi mungkin akhirnya mengenali mereka sebagai video yang sama. Hal itu akan menjadi kesalahan, tapi tidak seburuk skenario sebelumnya.

Kapan harus mengingat kembali

Dukung recall jika Anda lebih peduli tentang risiko yang diakibatkan transformasi FindMatches jika ia gagal untuk mendeteksi sepasang catatan yang sebenarnya cocok. Untuk mendukung recall, pilih nilai trade-off dari precision-recall menjadi lebih rendah. Dengan nilai yang lebih rendah, transformasi FindMatches akan membutuhkan lebih sedikit bukti untuk memutuskan bahwa sepasang catatan harus dicocokkan. Transformasi disetel untuk cenderung ke arah yang mengatakan bahwa catatan cocok.

Sebagai contoh, hal ini mungkin menjadi prioritas untuk organisasi keamanan. Misalkan Anda mencocokkan pelanggan terhadap daftar penipu yang sudah dikenal, dan penting untuk menentukan apakah seorang pelanggan adalah seorang penipu. Anda menggunakan FindMatches untuk mencocokkan daftar penipu dengan daftar pelanggan. Setiap kali FindMatches mendeteksi kecocokan antara dua daftar tersebut, maka auditor manusia ditugaskan untuk memverifikasi bahwa orang tersebut, pada kenyataannya, adalah seorang penipu. Organisasi Anda mungkin lebih memilih untuk memilih recall dari pada precision. Dengan kata lain, Anda lebih suka membuat auditor meninjau dan menolak secara manual beberapa kasus ketika pelanggan tersebut bukan seorang penipu daripada gagal untuk mengidentifikasi bahwa seorang pelanggan, pada kenyataannya, ada dalam daftar penipu.

Bagaimana mendukung presisi dan ingatan

Cara terbaik untuk meningkatkan precision dan recall adalah dengan memberi labeli pada lebih banyak data. Saat Anda melabeli lebih banyak data, maka keakuratan transformasi FindMatches secara keseluruhan meningkat, sehingga hal itu juga meningkatkan precision dan recall. Namun demikian, bahkan dengan transformasi yang paling akurat sekalipun, selalu ada area abu-abu di mana Anda perlu bereksperimen dengan mendukung precision atau recall, atau memilih nilai di tengah.