Wawasan penipuan transaksi - Amazon Fraud Detector

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Wawasan penipuan transaksi

Jenis model Transaction Fraud Insights dirancang untuk mendeteksi penipuan online, atau card-not-present, transaksi. Transaction Fraud Insights adalah model pembelajaran mesin yang diawasi, yang berarti menggunakan contoh historis transaksi penipuan dan sah untuk melatih model tersebut.

Model Transaction Fraud Insights menggunakan ansambel algoritma pembelajaran mesin untuk pengayaan data, transformasi, dan klasifikasi penipuan. Ini memanfaatkan mesin rekayasa fitur untuk membuat agregat tingkat entitas dan tingkat peristiwa. Sebagai bagian dari proses pelatihan model, Transaction Fraud Insights memperkaya elemen data mentah seperti alamat IP dan nomor BIN dengan data pihak ketiga seperti geolokasi alamat IP atau bank penerbit untuk kartu kredit. Selain data pihak ketiga, Transaction Fraud Insights menggunakan algoritme pembelajaran mendalam yang memperhitungkan pola penipuan yang telah terlihat di Amazon dan Pola penipuan AWS ini menjadi fitur input untuk model Anda menggunakan algoritme peningkatan pohon gradien.

Untuk meningkatkan kinerja, Transaction Fraud Insights mengoptimalkan parameter hiper algoritme peningkatan pohon gradien melalui proses optimasi Bayesian, secara berurutan melatih lusinan model berbeda dengan parameter model yang bervariasi (seperti jumlah pohon, kedalaman pohon, jumlah sampel per daun) serta strategi pengoptimalan yang berbeda seperti meningkatkan populasi penipuan minoritas untuk menangani tingkat penipuan yang sangat rendah.

Sebagai bagian dari proses pelatihan model, mesin rekayasa fitur model Transaction Fraud menghitung nilai untuk setiap entitas unik dalam kumpulan data pelatihan Anda untuk membantu meningkatkan prediksi penipuan. Misalnya, selama proses pelatihan, Amazon Fraud Detector menghitung dan menyimpan terakhir kali entitas melakukan pembelian dan memperbarui nilai ini secara dinamis setiap kali Anda memanggil GetEventPrediction atau SendEvent API. Selama prediksi penipuan, variabel peristiwa digabungkan dengan entitas lain dan metadata peristiwa untuk memprediksi apakah transaksi tersebut curang.

Memilih sumber data

Model Transaction Fraud Insights dilatih pada kumpulan data yang disimpan secara internal hanya dengan Amazon Fraud Detector (INGESTED_EVENTS). Hal ini memungkinkan Amazon Fraud Detector untuk terus memperbarui nilai terhitung tentang entitas yang Anda evaluasi. Untuk informasi selengkapnya tentang sumber data yang tersedia, lihat Penyimpanan data peristiwa

Mempersiapkan data

Sebelum Anda melatih model Transaction Fraud Insights, pastikan bahwa file data Anda berisi semua header seperti yang disebutkan dalam Siapkan dataset acara. Model Transaction Fraud Insights membandingkan entitas baru yang diterima dengan contoh entitas penipuan dan sah dalam kumpulan data, sehingga sangat membantu untuk memberikan banyak contoh untuk setiap entitas.

Amazon Fraud Detector secara otomatis mengubah kumpulan data peristiwa yang disimpan menjadi format yang benar untuk pelatihan. Setelah model menyelesaikan pelatihan, Anda dapat meninjau metrik kinerja dan menentukan apakah Anda harus menambahkan entitas ke kumpulan data pelatihan Anda.

Memilih data

Secara default, Insights Penipuan Transaksi melatih seluruh kumpulan data yang disimpan untuk Jenis Peristiwa yang Anda pilih. Anda dapat secara opsional mengatur rentang waktu untuk mengurangi peristiwa yang digunakan untuk melatih model Anda. Saat menetapkan rentang waktu, pastikan bahwa catatan yang digunakan untuk melatih model memiliki waktu yang cukup untuk matang. Artinya, cukup waktu telah berlalu untuk memastikan catatan yang sah dan penipuan telah diidentifikasi dengan benar. Misalnya, untuk penipuan tolak bayar, seringkali dibutuhkan 60 hari atau lebih untuk mengidentifikasi peristiwa penipuan dengan benar. Untuk kinerja model terbaik, pastikan bahwa semua catatan dalam kumpulan data pelatihan Anda sudah matang.

Tidak perlu memilih rentang waktu yang mewakili tingkat penipuan yang ideal. Amazon Fraud Detector secara otomatis mengambil sampel data Anda untuk mencapai keseimbangan antara tingkat penipuan, rentang waktu, dan jumlah entitas.

Amazon Fraud Detector mengembalikan kesalahan validasi selama pelatihan model jika Anda memilih rentang waktu yang tidak cukup acara untuk berhasil melatih model. Untuk kumpulan data yang disimpan, bidang EVENT_LABEL bersifat opsional, tetapi peristiwa harus diberi label untuk disertakan dalam kumpulan data pelatihan Anda. Saat mengonfigurasi pelatihan model, Anda dapat memilih apakah akan mengabaikan peristiwa yang tidak berlabel, mengambil label yang sah untuk peristiwa yang tidak berlabel, atau mengasumsikan label penipuan untuk peristiwa yang tidak berlabel.

Variabel peristiwa

Jenis peristiwa yang digunakan untuk melatih model harus berisi setidaknya 2 variabel, selain dari metadata peristiwa yang diperlukan, yang telah melewati validasi data dan dapat berisi hingga 100 variabel. Umumnya, semakin banyak variabel yang Anda berikan, semakin baik model dapat membedakan antara penipuan dan peristiwa yang sah. Meskipun model Transaction Fraud Insight dapat mendukung lusinan variabel, termasuk variabel kustom, kami menyarankan Anda menyertakan alamat IP, alamat email, jenis instrumen pembayaran, harga pesanan, dan BIN kartu.

Memvalidasi data

Sebagai bagian dari proses pelatihan, Transaction Fraud Insights memvalidasi kumpulan data pelatihan untuk masalah kualitas data yang mungkin memengaruhi pelatihan model. Setelah memvalidasi data, Amazon Fraud Detector mengambil tindakan yang tepat untuk membangun model terbaik. Ini termasuk mengeluarkan peringatan untuk masalah kualitas data potensial, secara otomatis menghapus variabel yang memiliki masalah kualitas data, atau mengeluarkan kesalahan dan menghentikan proses pelatihan model. Untuk informasi selengkapnya, lihat Validasi kumpulan data.

Amazon Fraud Detector akan mengeluarkan peringatan tetapi terus melatih model jika jumlah entitas unik kurang dari 1.500 karena ini dapat memengaruhi kualitas data pelatihan. Jika Anda menerima peringatan, tinjau metrik kinerja.