Pemecahan Masalah - Amazon Fraud Detector

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemecahan Masalah

Bagian berikut membantu Anda memecahkan masalah yang mungkin Anda temui saat bekerja dengan Amazon Fraud Detector

Memecahkan masalah data pelatihan

Gunakan informasi di bagian ini untuk membantu mendiagnosis dan menyelesaikan masalah yang mungkin Anda lihat di panel diagnostik pelatihan Model di konsol Amazon Fraud Detector saat Anda melatih model.

Masalah yang ditampilkan di panel diagnostik pelatihan Model dikategorikan sebagai berikut. Persyaratan untuk mengatasi masalah ini tergantung pada kategori masalah.

  • Error icon Kesalahan - menyebabkan pelatihan model gagal. Masalah-masalah ini harus diatasi agar model dapat dilatih dengan sukses.

  • Warning icon Peringatan - menyebabkan pelatihan model berlanjut, namun, beberapa variabel mungkin dikecualikan dalam proses pelatihan. Periksa panduan yang relevan di bagian ini untuk meningkatkan kualitas kumpulan data Anda.

  • Information icon Informasi (Info) - tidak berdampak pada pelatihan model dan semua variabel digunakan untuk pelatihan. Kami menyarankan Anda memeriksa panduan yang relevan di bagian ini untuk lebih meningkatkan kualitas dataset dan kinerja model Anda.

Tingkat penipuan yang tidak stabil dalam kumpulan data yang diberikan

Jenis masalah: Kesalahan

Deskripsi

Tingkat penipuan dalam data yang diberikan terlalu tidak stabil dari waktu ke waktu. Pastikan penipuan dan peristiwa sah Anda diambil sampelnya secara seragam dari waktu ke waktu.

Menyebabkan

Kesalahan ini terjadi jika penipuan dan peristiwa yang sah dalam kumpulan data Anda didistribusikan secara tidak merata dan diambil dari slot waktu yang berbeda. Contoh proses pelatihan model Amazon Fraud Detector dan partisi kumpulan data Anda berdasarkan EVENT_TIMESTAMP. Misalnya, jika kumpulan data Anda terdiri dari peristiwa penipuan yang ditarik dari 6 bulan terakhir, tetapi hanya bulan terakhir peristiwa yang sah yang disertakan, kumpulan data dianggap tidak stabil. Dataset yang tidak stabil dapat menyebabkan bias dalam evaluasi kinerja model.

Solusi

Pastikan untuk memberikan data peristiwa penipuan dan sah dari slot waktu yang sama dan tingkat penipuan tidak berubah secara dramatis dari waktu ke waktu.

Data tidak mencukupi

  1. Jenis masalah: Kesalahan

    Deskripsi

    Kurang dari 50 baris diberi label sebagai peristiwa penipuan. Pastikan bahwa peristiwa penipuan dan sah melebihi jumlah minimum 50 dan latih kembali model.

    Menyebabkan

    Kesalahan ini terjadi jika kumpulan data Anda memiliki lebih sedikit peristiwa yang diberi label penipuan daripada yang diperlukan untuk pelatihan model. Amazon Fraud Detector memerlukan setidaknya 50 peristiwa penipuan untuk melatih model Anda.

    Solusi

    Pastikan bahwa dataset Anda mencakup minimal 50 peristiwa penipuan. Anda dapat memastikan ini dengan mencakup periode waktu yang lebih lama, jika diperlukan.

  2. Jenis masalah: Kesalahan

    Deskripsi

    Kurang dari 50 baris diberi label sebagai peristiwa yang sah. Pastikan bahwa peristiwa penipuan dan sah melebihi jumlah minimum $threshold dan latih kembali modelnya.

    Menyebabkan

    Kesalahan ini terjadi jika kumpulan data Anda memiliki lebih sedikit peristiwa yang diberi label sah daripada yang diperlukan untuk pelatihan model. Amazon Fraud Detector memerlukan setidaknya 50 peristiwa yang sah untuk melatih model Anda.

    Solusi

    Pastikan kumpulan data Anda menyertakan minimal 50 peristiwa yang sah. Anda dapat memastikan ini dengan mencakup periode waktu yang lebih lama, jika diperlukan.

  3. Jenis masalah: Kesalahan

    Deskripsi

    Jumlah entitas unik yang terkait dengan penipuan kurang dari 100. Pertimbangkan untuk memasukkan lebih banyak contoh entitas penipuan untuk meningkatkan kinerja.

    Menyebabkan

    Kesalahan ini terjadi jika kumpulan data Anda memiliki lebih sedikit entitas dengan peristiwa penipuan daripada yang diperlukan untuk pelatihan model. Model Transaction Fraud Insights (TFI) membutuhkan setidaknya 100 entitas dengan peristiwa penipuan untuk memastikan cakupan maksimum ruang penipuan. Model mungkin tidak menggeneralisasi dengan baik jika semua peristiwa penipuan dilakukan oleh sekelompok kecil entitas.

    Solusi

    Pastikan kumpulan data Anda mencakup setidaknya 100 entitas dengan peristiwa penipuan. Anda dapat memastikan ini mencakup periode waktu yang lebih lama, jika diperlukan.

  4. Jenis masalah: Kesalahan

    Deskripsi

    Jumlah entitas unik yang terkait dengan sah kurang dari 100. Pertimbangkan untuk memasukkan lebih banyak contoh entitas yang sah untuk meningkatkan kinerja.

    Menyebabkan

    Kesalahan ini terjadi jika kumpulan data Anda memiliki lebih sedikit entitas dengan peristiwa yang sah daripada yang diperlukan untuk pelatihan model. Model Transaction Fraud Insights (TFI) membutuhkan setidaknya 100 entitas dengan peristiwa yang sah untuk memastikan cakupan maksimum ruang penipuan. Model mungkin tidak menggeneralisasi dengan baik jika semua peristiwa yang sah dilakukan oleh sekelompok kecil entitas.

    Solusi

    Pastikan kumpulan data Anda menyertakan setidaknya 100 entitas dengan peristiwa yang sah. Anda dapat memastikan ini mencakup periode waktu yang lebih lama, jika diperlukan.

  5. Jenis masalah: Kesalahan

    Deskripsi

    Kurang dari 100 baris ada dalam kumpulan data. Pastikan ada lebih dari 100 baris dalam kumpulan data total dan setidaknya 50 baris diberi label sebagai penipuan.

    Menyebabkan

    Kesalahan ini terjadi jika kumpulan data Anda berisi kurang dari 100 catatan. Amazon Fraud Detector memerlukan data dari setidaknya 100 peristiwa (catatan) dalam kumpulan data Anda untuk pelatihan model.

    Solusi

    Pastikan Anda memiliki data dari lebih dari 100 peristiwa dalam kumpulan data Anda.

Nilai EVENT_LABEL yang hilang atau berbeda

  1. Jenis masalah: Kesalahan

    Deskripsi

    Lebih besar dari 1% kolom EVENT_LABEL Anda adalah nol atau nilai selain yang ditentukan dalam konfigurasi model. $label_values Pastikan Anda memiliki kurang dari 1% nilai yang hilang di kolom EVENT_LABEL Anda dan nilainya ditentukan dalam konfigurasi model. $label_values

    Menyebabkan

    Kesalahan ini terjadi karena salah satu alasan berikut:

    • Lebih dari 1% catatan dalam file CSV yang berisi data pelatihan Anda memiliki nilai yang hilang di kolom EVENT_LABEL.

    • Lebih dari 1% catatan dalam file CSV yang berisi data pelatihan Anda memiliki nilai di kolom EVENT_LABEL yang berbeda dari yang terkait dengan jenis acara Anda.

    Model Online Fraud Insights (OFI) mengharuskan kolom EVENT_LABEL di setiap rekaman diisi dengan salah satu label yang terkait dengan jenis acara Anda (atau, dipetakan). CreateModelVersion

    Solusi

    Jika kesalahan ini disebabkan oleh nilai EVENT_LABEL yang hilang, pertimbangkan untuk menetapkan label yang tepat ke catatan tersebut atau menghapus catatan tersebut dari kumpulan data Anda. Jika kesalahan ini karena label dari beberapa catatan tidak adalabel_values, pastikan untuk menambahkan semua nilai di kolom EVENT_LABEL ke label jenis acara dan dipetakan ke penipuan atau sah (penipuan, sah) dalam pembuatan model.

  2. Jenis masalah: Informasi

    Deskripsi

    Kolom EVENT_LABEL berisi nilai nol atau nilai label selain yang ditentukan dalam konfigurasi model. $label_values Nilai-nilai yang tidak konsisten ini diubah menjadi 'bukan penipuan' sebelum pelatihan.

    Menyebabkan

    Anda mendapatkan informasi ini karena salah satu alasan berikut:

    • Kurang dari 1% catatan dalam file CSV yang berisi data pelatihan Anda memiliki nilai yang hilang di kolom EVENT_LABEL

    • Kurang dari 1% catatan dalam file CSV yang berisi data pelatihan Anda memiliki nilai di kolom EVENT_LABEL yang berbeda dari yang terkait dengan jenis acara Anda.

    Pelatihan model dalam kedua kasus akan berhasil. Namun, nilai label dari peristiwa yang memiliki nilai label yang hilang atau tidak dipetakan diubah menjadi sah. Jika Anda menganggap ini sebagai masalah, ikuti solusi yang disediakan di bawah ini.

    Solusi

    Jika ada nilai EVENT_LABEL yang hilang dalam kumpulan data Anda, pertimbangkan untuk menghapus catatan tersebut dari kumpulan data Anda. Jika nilai yang diberikan untuk EVENT_LABELS tersebut tidak dipetakan, pastikan bahwa semua nilai tersebut dipetakan ke penipuan atau sah (penipuan, sah) untuk setiap peristiwa.

Nilai EVENT_TIMESTAMP hilang atau salah

  1. Jenis masalah: Kesalahan

    Deskripsi

    Kumpulan data pelatihan Anda berisi EVENT_TIMESTAMP dengan stempel waktu yang tidak sesuai dengan format yang diterima. Pastikan formatnya adalah salah satu format tanggal/stempel waktu yang diterima.

    Menyebabkan

    Kesalahan ini terjadi jika kolom EVENT_TIMESTAMP berisi nilai yang tidak sesuai dengan format stempel waktu yang didukung oleh Amazon Fraud Detector.

    Solusi

    Pastikan bahwa nilai yang disediakan untuk kolom EVENT_TIMESTAMP sesuai dengan format stempel waktu yang didukung. Jika Anda memiliki nilai yang hilang di kolom EVENT_TIMESTAMP, Anda dapat mengisi ulang nilai tersebut dengan nilai menggunakan format stempel waktu yang didukung atau mempertimbangkan untuk menghapus acara sepenuhnya alih-alih memasukkan string seperti,, atau. none null missing

  2. Jenis masalah: Kesalahan

    Kumpulan data pelatihan Anda berisi EVENT_TIMESTAMP dengan nilai yang hilang. Pastikan Anda tidak memiliki nilai yang hilang.

    Menyebabkan

    Kesalahan ini terjadi jika kolom EVENT_TIMESTAMP dalam kumpulan data Anda memiliki nilai yang hilang. Amazon Fraud Detector mengharuskan kolom EVENT_TIMESTAMP dalam kumpulan data Anda memiliki nilai.

    Solusi

    Pastikan kolom EVENT_TIMESTAMP dalam kumpulan data Anda memiliki nilai dan nilai tersebut sesuai dengan format stempel waktu yang didukung. Jika Anda memiliki nilai yang hilang di kolom EVENT_TIMESTAMP, Anda dapat mengisi ulang nilai tersebut dengan nilai menggunakan format stempel waktu yang didukung atau mempertimbangkan untuk menghapus acara sepenuhnya alih-alih memasukkan string seperti,, atau. none null missing

Data tidak tertelan

Jenis masalah: Kesalahan

Deskripsi

Tidak ada acara tertelan yang ditemukan untuk pelatihan, silakan periksa konfigurasi pelatihan Anda.

Menyebabkan

Kesalahan ini terjadi jika Anda membuat model dengan data peristiwa yang disimpan dengan Amazon Fraud Detector tetapi tidak mengimpor dataset Anda ke Amazon Fraud Detector sebelum Anda mulai melatih model Anda.

Solusi

Gunakan operasi SendEvent API, operasi CreateBatchImportJob API, atau fitur impor batch di konsol Amazon Fraud Detector, untuk mengimpor data peristiwa terlebih dahulu, lalu melatih model Anda. Lihat Kumpulan data peristiwa tersimpan untuk informasi selengkapnya.

catatan

Kami sarankan menunggu 10 menit setelah Anda selesai mengimpor data Anda sebelum menggunakannya untuk melatih model Anda.

Anda dapat menggunakan konsol Amazon Fraud Detector untuk memeriksa jumlah peristiwa yang sudah disimpan untuk setiap jenis acara. Lihat Melihat metrik peristiwa yang disimpan untuk informasi selengkapnya.

Variabel tidak mencukupi

Jenis masalah: Kesalahan

Deskripsi

Dataset harus berisi setidaknya 2 variabel yang cocok untuk pelatihan.

Menyebabkan

Kesalahan ini terjadi jika kumpulan data Anda berisi kurang dari 2 variabel yang cocok untuk pelatihan model. Amazon Fraud Detector menganggap variabel yang cocok untuk pelatihan model hanya jika melewati semua validasi. Jika variabel gagal validasi, itu dikecualikan dalam pelatihan model dan Anda akan melihat pesan di Diagnostik pelatihan Model.

Solusi

Pastikan kumpulan data Anda memiliki setidaknya dua variabel yang diisi dengan nilai dan lulus semua validasi data. Perhatikan bahwa baris metadata peristiwa di mana Anda telah memberikan header kolom Anda (EVENT_TIMESTAMP, EVENT_ID, ENTITY_ID, EVENT_LABEL, dll.) tidak dianggap sebagai variabel.

Tipe variabel yang hilang atau salah

Jenis masalah: Peringatan

Deskripsi

Tipe data yang diharapkan untuk $variable_name adalah NUMERIK. Tinjau dan perbarui $variable_name dalam kumpulan data Anda dan latih kembali modelnya.

Menyebabkan

Anda mendapatkan peringatan ini jika variabel didefinisikan sebagai variabel NUMERIK, tetapi dalam kumpulan data, ia memiliki nilai yang tidak dapat dikonversi ke NUMERIC. Akibatnya, variabel itu dikecualikan dalam pelatihan model.

Solusi

Jika Anda ingin menyimpannya sebagai variabel NUMERIK, pastikan bahwa nilai yang Anda berikan dapat dikonversi ke nomor float. Perhatikan bahwa jika variabel berisi nilai yang hilang, jangan mengisinya dengan string sepertinonene,null, ataumissing. Jika variabel memang berisi nilai non-numerik, buat ulang sebagai tipe variabel CATEGORICAL atau FREE_FORM_TEXT.

Nilai variabel yang hilang

Jenis masalah: Peringatan

Deskripsi

Lebih besar dari $threshold nilai untuk $variable_name hilang dari kumpulan data pelatihan Anda. Pertimbangkan untuk memodifikasi $variable_name dalam kumpulan data dan pelatihan ulang Anda untuk meningkatkan kinerja.

Menyebabkan

Anda mendapatkan peringatan ini jika variabel yang ditentukan dijatuhkan karena terlalu banyak nilai yang hilang. Amazon Fraud Detector memungkinkan nilai yang hilang untuk variabel. Namun, jika satu variabel memiliki terlalu banyak nilai yang hilang, itu tidak berkontribusi banyak pada model dan variabel itu dijatuhkan dalam pelatihan model.

Solusi

Pertama, verifikasi bahwa nilai yang hilang itu bukan karena kesalahan dalam pengumpulan dan persiapan data. Jika itu kesalahan, maka Anda dapat mempertimbangkan untuk menjatuhkannya dari pelatihan model Anda. Namun, jika Anda yakin nilai-nilai yang hilang itu berharga dan masih ingin mempertahankan variabel itu, Anda dapat secara manual mengisi nilai yang hilang dengan konstanta dalam pelatihan model dan inferensi waktu nyata.

Nilai variabel unik tidak mencukupi

Jenis masalah: Peringatan

Deskripsi

Hitungan nilai unik $variable_name lebih rendah dari 100. Tinjau dan perbarui $variable_name dalam kumpulan data Anda dan latih kembali modelnya.

Menyebabkan

Anda mendapatkan peringatan ini jika jumlah nilai unik dari variabel yang ditentukan kurang dari 100. Ambang batas berbeda tergantung pada jenis variabel. Dengan nilai unik yang sangat sedikit, ada risiko bahwa kumpulan data tidak cukup umum untuk mencakup ruang fitur variabel itu. Akibatnya, model mungkin tidak menggeneralisasi dengan baik pada prediksi waktu nyata.

Solusi

Pertama, pastikan distribusi variabel mewakili lalu lintas bisnis nyata. Kemudian, Anda dapat mengadopsi lebih banyak variabel terlatih dengan kardinalitas yang lebih tinggi, seperti menggunakan full_customer_name alih-alih first_name dan last_name secara terpisah atau mengubah tipe variabel menjadi CATEGORICAL, yang memungkinkan kardinalitas lebih rendah.

Ekspresi variabel salah

  1. Jenis masalah: Informasi

    Deskripsi

    Lebih dari 50% $email_variable_name nilai tidak cocok dengan ekspresi reguler yang diharapkan http://emailregex.com. Pertimbangkan untuk memodifikasi $email_variable_name dalam kumpulan data dan pelatihan ulang Anda untuk meningkatkan kinerja.

    Menyebabkan

    Informasi ini ditampilkan jika lebih dari 50% catatan dalam dataset Anda memiliki nilai email yang tidak sesuai dengan ekspresi email biasa dan karena itu gagal validasi.

    Solusi

    Format nilai variabel email agar sesuai dengan ekspresi reguler. Jika ada nilai email yang hilang, kami sarankan untuk membiarkannya kosong alih-alih mengisinya dengan string sepertinone,null, ataumissing.

  2. Jenis masalah: Informasi

    Deskripsi

    Lebih dari 50% $IP_variable_name nilai tidak cocok dengan ekspresi reguler untuk alamat IPv4 atau IPv6 https://digitalfortress.tech/tricks/top-15 - /. commonly-used-regex Pertimbangkan untuk memodifikasi $IP_variable_name dalam kumpulan data dan pelatihan ulang Anda untuk meningkatkan kinerja.

    Menyebabkan

    Informasi ini ditampilkan jika lebih dari 50% catatan dalam dataset Anda memiliki nilai IP yang tidak sesuai dengan ekspresi IP reguler dan karena itu gagal validasi.

    Solusi

    Format nilai IP agar sesuai dengan ekspresi reguler. Jika ada nilai IP yang hilang, kami sarankan untuk membiarkannya kosong alih-alih mengisinya dengan string sepertinone,null, ataumissing.

  3. Jenis masalah: Informasi

    Deskripsi

    Lebih dari 50% $phone_variable_name nilai tidak cocok dengan ekspresi reguler telepon dasar /$pattern/. Pertimbangkan untuk memodifikasi $phone_variable_name dalam kumpulan data dan pelatihan ulang Anda untuk meningkatkan kinerja.

    Menyebabkan

    Informasi ini ditampilkan jika lebih dari 50% catatan dalam dataset Anda memiliki nomor telepon yang tidak sesuai dengan ekspresi nomor telepon biasa dan karena itu gagal validasi.

    Solusi

    Format nomor telepon agar sesuai dengan ekspresi reguler. Jika ada nomor telepon yang hilang, kami sarankan untuk membiarkannya kosong daripada mengisinya dengan string sepertinone,null, ataumissing.

Entitas unik yang tidak mencukupi

Jenis masalah: Informasi

Deskripsi

Jumlah entitas unik kurang dari 1500. Pertimbangkan untuk memasukkan lebih banyak data untuk meningkatkan kinerja.

Menyebabkan

Informasi ini ditampilkan jika kumpulan data Anda memiliki jumlah entitas unik yang lebih kecil daripada nomor yang disarankan. Model Transaction Fraud Insights (TFI) menggunakan agregat deret waktu dan fitur transaksi generik untuk memberikan kinerja terbaik. Jika kumpulan data Anda memiliki terlalu sedikit entitas unik, maka sebagian besar data generik Anda seperti IP_ADDRESS, EMAIL_ADDRESS, mungkin tidak memiliki nilai unik. Kemudian, ada juga risiko bahwa kumpulan data ini tidak cukup umum untuk mencakup ruang fitur variabel itu. Akibatnya, model mungkin tidak menggeneralisasi dengan baik pada transaksi dari entitas baru yang baru.

Solusi

Sertakan lebih banyak entitas. Perpanjang rentang waktu data pelatihan Anda, jika diperlukan.