Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pemecahan Masalah
Bagian berikut membantu Anda memecahkan masalah yang mungkin Anda temui saat bekerja dengan Amazon Fraud Detector
Memecahkan masalah data pelatihan
Gunakan informasi di bagian ini untuk membantu mendiagnosis dan menyelesaikan masalah yang mungkin Anda lihat di panel diagnostik pelatihan Model di konsol Amazon Fraud Detector saat Anda melatih model.
Masalah yang ditampilkan di panel diagnostik pelatihan Model dikategorikan sebagai berikut. Persyaratan untuk mengatasi masalah ini tergantung pada kategori masalah.
-
Kesalahan - menyebabkan pelatihan model gagal. Masalah-masalah ini harus diatasi agar model dapat dilatih dengan sukses.
-
Peringatan - menyebabkan pelatihan model berlanjut, namun, beberapa variabel mungkin dikecualikan dalam proses pelatihan. Periksa panduan yang relevan di bagian ini untuk meningkatkan kualitas kumpulan data Anda.
-
Informasi (Info) - tidak berdampak pada pelatihan model dan semua variabel digunakan untuk pelatihan. Kami menyarankan Anda memeriksa panduan yang relevan di bagian ini untuk lebih meningkatkan kualitas dataset dan kinerja model Anda.
Topik
- Tingkat penipuan yang tidak stabil dalam kumpulan data yang diberikan
- Data tidak mencukupi
- Nilai EVENT_LABEL yang hilang atau berbeda
- Nilai EVENT_TIMESTAMP hilang atau salah
- Data tidak tertelan
- Variabel tidak mencukupi
- Tipe variabel yang hilang atau salah
- Nilai variabel yang hilang
- Nilai variabel unik tidak mencukupi
- Ekspresi variabel salah
- Entitas unik yang tidak mencukupi
Tingkat penipuan yang tidak stabil dalam kumpulan data yang diberikan
Jenis masalah: Kesalahan
Deskripsi
Tingkat penipuan dalam data yang diberikan terlalu tidak stabil dari waktu ke waktu. Pastikan penipuan dan peristiwa sah Anda diambil sampelnya secara seragam dari waktu ke waktu.
Menyebabkan
Kesalahan ini terjadi jika penipuan dan peristiwa yang sah dalam kumpulan data Anda didistribusikan secara tidak merata dan diambil dari slot waktu yang berbeda. Contoh proses pelatihan model Amazon Fraud Detector dan partisi kumpulan data Anda berdasarkan EVENT_TIMESTAMP. Misalnya, jika kumpulan data Anda terdiri dari peristiwa penipuan yang ditarik dari 6 bulan terakhir, tetapi hanya bulan terakhir peristiwa yang sah yang disertakan, kumpulan data dianggap tidak stabil. Dataset yang tidak stabil dapat menyebabkan bias dalam evaluasi kinerja model.
Solusi
Pastikan untuk memberikan data peristiwa penipuan dan sah dari slot waktu yang sama dan tingkat penipuan tidak berubah secara dramatis dari waktu ke waktu.
Data tidak mencukupi
-
Jenis masalah: Kesalahan
Deskripsi
Kurang dari 50 baris diberi label sebagai peristiwa penipuan. Pastikan bahwa peristiwa penipuan dan sah melebihi jumlah minimum 50 dan latih kembali model.
Menyebabkan
Kesalahan ini terjadi jika kumpulan data Anda memiliki lebih sedikit peristiwa yang diberi label penipuan daripada yang diperlukan untuk pelatihan model. Amazon Fraud Detector memerlukan setidaknya 50 peristiwa penipuan untuk melatih model Anda.
Solusi
Pastikan bahwa dataset Anda mencakup minimal 50 peristiwa penipuan. Anda dapat memastikan ini dengan mencakup periode waktu yang lebih lama, jika diperlukan.
-
Jenis masalah: Kesalahan
Deskripsi
Kurang dari 50 baris diberi label sebagai peristiwa yang sah. Pastikan bahwa peristiwa penipuan dan sah melebihi jumlah minimum $threshold dan latih kembali modelnya.
Menyebabkan
Kesalahan ini terjadi jika kumpulan data Anda memiliki lebih sedikit peristiwa yang diberi label sah daripada yang diperlukan untuk pelatihan model. Amazon Fraud Detector memerlukan setidaknya 50 peristiwa yang sah untuk melatih model Anda.
Solusi
Pastikan kumpulan data Anda menyertakan minimal 50 peristiwa yang sah. Anda dapat memastikan ini dengan mencakup periode waktu yang lebih lama, jika diperlukan.
-
Jenis masalah: Kesalahan
Deskripsi
Jumlah entitas unik yang terkait dengan penipuan kurang dari 100. Pertimbangkan untuk memasukkan lebih banyak contoh entitas penipuan untuk meningkatkan kinerja.
Menyebabkan
Kesalahan ini terjadi jika kumpulan data Anda memiliki lebih sedikit entitas dengan peristiwa penipuan daripada yang diperlukan untuk pelatihan model. Model Transaction Fraud Insights (TFI) membutuhkan setidaknya 100 entitas dengan peristiwa penipuan untuk memastikan cakupan maksimum ruang penipuan. Model mungkin tidak menggeneralisasi dengan baik jika semua peristiwa penipuan dilakukan oleh sekelompok kecil entitas.
Solusi
Pastikan kumpulan data Anda mencakup setidaknya 100 entitas dengan peristiwa penipuan. Anda dapat memastikan ini mencakup periode waktu yang lebih lama, jika diperlukan.
-
Jenis masalah: Kesalahan
Deskripsi
Jumlah entitas unik yang terkait dengan sah kurang dari 100. Pertimbangkan untuk memasukkan lebih banyak contoh entitas yang sah untuk meningkatkan kinerja.
Menyebabkan
Kesalahan ini terjadi jika kumpulan data Anda memiliki lebih sedikit entitas dengan peristiwa yang sah daripada yang diperlukan untuk pelatihan model. Model Transaction Fraud Insights (TFI) membutuhkan setidaknya 100 entitas dengan peristiwa yang sah untuk memastikan cakupan maksimum ruang penipuan. Model mungkin tidak menggeneralisasi dengan baik jika semua peristiwa yang sah dilakukan oleh sekelompok kecil entitas.
Solusi
Pastikan kumpulan data Anda menyertakan setidaknya 100 entitas dengan peristiwa yang sah. Anda dapat memastikan ini mencakup periode waktu yang lebih lama, jika diperlukan.
-
Jenis masalah: Kesalahan
Deskripsi
Kurang dari 100 baris ada dalam kumpulan data. Pastikan ada lebih dari 100 baris dalam kumpulan data total dan setidaknya 50 baris diberi label sebagai penipuan.
Menyebabkan
Kesalahan ini terjadi jika kumpulan data Anda berisi kurang dari 100 catatan. Amazon Fraud Detector memerlukan data dari setidaknya 100 peristiwa (catatan) dalam kumpulan data Anda untuk pelatihan model.
Solusi
Pastikan Anda memiliki data dari lebih dari 100 peristiwa dalam kumpulan data Anda.
Nilai EVENT_LABEL yang hilang atau berbeda
-
Jenis masalah: Kesalahan
Deskripsi
Lebih besar dari 1% kolom EVENT_LABEL Anda adalah nol atau nilai selain yang ditentukan dalam konfigurasi model.
$label_values
Pastikan Anda memiliki kurang dari 1% nilai yang hilang di kolom EVENT_LABEL Anda dan nilainya ditentukan dalam konfigurasi model.$label_values
Menyebabkan
Kesalahan ini terjadi karena salah satu alasan berikut:
-
Lebih dari 1% catatan dalam file CSV yang berisi data pelatihan Anda memiliki nilai yang hilang di kolom EVENT_LABEL.
-
Lebih dari 1% catatan dalam file CSV yang berisi data pelatihan Anda memiliki nilai di kolom EVENT_LABEL yang berbeda dari yang terkait dengan jenis acara Anda.
Model Online Fraud Insights (OFI) mengharuskan kolom EVENT_LABEL di setiap rekaman diisi dengan salah satu label yang terkait dengan jenis acara Anda (atau, dipetakan).
CreateModelVersion
Solusi
Jika kesalahan ini disebabkan oleh nilai EVENT_LABEL yang hilang, pertimbangkan untuk menetapkan label yang tepat ke catatan tersebut atau menghapus catatan tersebut dari kumpulan data Anda. Jika kesalahan ini karena label dari beberapa catatan tidak ada
label_values
, pastikan untuk menambahkan semua nilai di kolom EVENT_LABEL ke label jenis acara dan dipetakan ke penipuan atau sah (penipuan, sah) dalam pembuatan model. -
-
Jenis masalah: Informasi
Deskripsi
Kolom EVENT_LABEL berisi nilai nol atau nilai label selain yang ditentukan dalam konfigurasi model.
$label_values
Nilai-nilai yang tidak konsisten ini diubah menjadi 'bukan penipuan' sebelum pelatihan.Menyebabkan
Anda mendapatkan informasi ini karena salah satu alasan berikut:
-
Kurang dari 1% catatan dalam file CSV yang berisi data pelatihan Anda memiliki nilai yang hilang di kolom EVENT_LABEL
-
Kurang dari 1% catatan dalam file CSV yang berisi data pelatihan Anda memiliki nilai di kolom EVENT_LABEL yang berbeda dari yang terkait dengan jenis acara Anda.
Pelatihan model dalam kedua kasus akan berhasil. Namun, nilai label dari peristiwa yang memiliki nilai label yang hilang atau tidak dipetakan diubah menjadi sah. Jika Anda menganggap ini sebagai masalah, ikuti solusi yang disediakan di bawah ini.
Solusi
Jika ada nilai EVENT_LABEL yang hilang dalam kumpulan data Anda, pertimbangkan untuk menghapus catatan tersebut dari kumpulan data Anda. Jika nilai yang diberikan untuk EVENT_LABELS tersebut tidak dipetakan, pastikan bahwa semua nilai tersebut dipetakan ke penipuan atau sah (penipuan, sah) untuk setiap peristiwa.
-
Nilai EVENT_TIMESTAMP hilang atau salah
-
Jenis masalah: Kesalahan
Deskripsi
Kumpulan data pelatihan Anda berisi EVENT_TIMESTAMP dengan stempel waktu yang tidak sesuai dengan format yang diterima. Pastikan formatnya adalah salah satu format tanggal/stempel waktu yang diterima.
Menyebabkan
Kesalahan ini terjadi jika kolom EVENT_TIMESTAMP berisi nilai yang tidak sesuai dengan format stempel waktu yang didukung oleh Amazon Fraud Detector.
Solusi
Pastikan bahwa nilai yang disediakan untuk kolom EVENT_TIMESTAMP sesuai dengan format stempel waktu yang didukung. Jika Anda memiliki nilai yang hilang di kolom EVENT_TIMESTAMP, Anda dapat mengisi ulang nilai tersebut dengan nilai menggunakan format stempel waktu yang didukung atau mempertimbangkan untuk menghapus acara sepenuhnya alih-alih memasukkan string seperti,, atau.
none
null
missing
-
Jenis masalah: Kesalahan
Kumpulan data pelatihan Anda berisi EVENT_TIMESTAMP dengan nilai yang hilang. Pastikan Anda tidak memiliki nilai yang hilang.
Menyebabkan
Kesalahan ini terjadi jika kolom EVENT_TIMESTAMP dalam kumpulan data Anda memiliki nilai yang hilang. Amazon Fraud Detector mengharuskan kolom EVENT_TIMESTAMP dalam kumpulan data Anda memiliki nilai.
Solusi
Pastikan kolom EVENT_TIMESTAMP dalam kumpulan data Anda memiliki nilai dan nilai tersebut sesuai dengan format stempel waktu yang didukung. Jika Anda memiliki nilai yang hilang di kolom EVENT_TIMESTAMP, Anda dapat mengisi ulang nilai tersebut dengan nilai menggunakan format stempel waktu yang didukung atau mempertimbangkan untuk menghapus acara sepenuhnya alih-alih memasukkan string seperti,, atau.
none
null
missing
Data tidak tertelan
Jenis masalah: Kesalahan
Deskripsi
Tidak ada acara tertelan yang ditemukan untuk pelatihan, silakan periksa konfigurasi pelatihan Anda.
Menyebabkan
Kesalahan ini terjadi jika Anda membuat model dengan data peristiwa yang disimpan dengan Amazon Fraud Detector tetapi tidak mengimpor dataset Anda ke Amazon Fraud Detector sebelum Anda mulai melatih model Anda.
Solusi
Gunakan operasi SendEvent
API, operasi CreateBatchImportJob
API, atau fitur impor batch di konsol Amazon Fraud Detector, untuk mengimpor data peristiwa terlebih dahulu, lalu melatih model Anda. Lihat Kumpulan data peristiwa tersimpan untuk informasi selengkapnya.
catatan
Kami sarankan menunggu 10 menit setelah Anda selesai mengimpor data Anda sebelum menggunakannya untuk melatih model Anda.
Anda dapat menggunakan konsol Amazon Fraud Detector untuk memeriksa jumlah peristiwa yang sudah disimpan untuk setiap jenis acara. Lihat Melihat metrik peristiwa yang disimpan untuk informasi selengkapnya.
Variabel tidak mencukupi
Jenis masalah: Kesalahan
Deskripsi
Dataset harus berisi setidaknya 2 variabel yang cocok untuk pelatihan.
Menyebabkan
Kesalahan ini terjadi jika kumpulan data Anda berisi kurang dari 2 variabel yang cocok untuk pelatihan model. Amazon Fraud Detector menganggap variabel yang cocok untuk pelatihan model hanya jika melewati semua validasi. Jika variabel gagal validasi, itu dikecualikan dalam pelatihan model dan Anda akan melihat pesan di Diagnostik pelatihan Model.
Solusi
Pastikan kumpulan data Anda memiliki setidaknya dua variabel yang diisi dengan nilai dan lulus semua validasi data. Perhatikan bahwa baris metadata peristiwa di mana Anda telah memberikan header kolom Anda (EVENT_TIMESTAMP, EVENT_ID, ENTITY_ID, EVENT_LABEL, dll.) tidak dianggap sebagai variabel.
Tipe variabel yang hilang atau salah
Jenis masalah: Peringatan
Deskripsi
Tipe data yang diharapkan untuk $variable_name
adalah NUMERIK. Tinjau dan perbarui $variable_name
dalam kumpulan data Anda dan latih kembali modelnya.
Menyebabkan
Anda mendapatkan peringatan ini jika variabel didefinisikan sebagai variabel NUMERIK, tetapi dalam kumpulan data, ia memiliki nilai yang tidak dapat dikonversi ke NUMERIC. Akibatnya, variabel itu dikecualikan dalam pelatihan model.
Solusi
Jika Anda ingin menyimpannya sebagai variabel NUMERIK, pastikan bahwa nilai yang Anda berikan dapat dikonversi ke nomor float. Perhatikan bahwa jika variabel berisi nilai yang hilang, jangan mengisinya dengan string sepertinonene
,null
, ataumissing
. Jika variabel memang berisi nilai non-numerik, buat ulang sebagai tipe variabel CATEGORICAL atau FREE_FORM_TEXT.
Nilai variabel yang hilang
Jenis masalah: Peringatan
Deskripsi
Lebih besar dari $threshold
nilai untuk $variable_name
hilang dari kumpulan data pelatihan Anda. Pertimbangkan untuk memodifikasi $variable_name
dalam kumpulan data dan pelatihan ulang Anda untuk meningkatkan kinerja.
Menyebabkan
Anda mendapatkan peringatan ini jika variabel yang ditentukan dijatuhkan karena terlalu banyak nilai yang hilang. Amazon Fraud Detector memungkinkan nilai yang hilang untuk variabel. Namun, jika satu variabel memiliki terlalu banyak nilai yang hilang, itu tidak berkontribusi banyak pada model dan variabel itu dijatuhkan dalam pelatihan model.
Solusi
Pertama, verifikasi bahwa nilai yang hilang itu bukan karena kesalahan dalam pengumpulan dan persiapan data. Jika itu kesalahan, maka Anda dapat mempertimbangkan untuk menjatuhkannya dari pelatihan model Anda. Namun, jika Anda yakin nilai-nilai yang hilang itu berharga dan masih ingin mempertahankan variabel itu, Anda dapat secara manual mengisi nilai yang hilang dengan konstanta dalam pelatihan model dan inferensi waktu nyata.
Nilai variabel unik tidak mencukupi
Jenis masalah: Peringatan
Deskripsi
Hitungan nilai unik $variable_name
lebih rendah dari 100. Tinjau dan perbarui $variable_name
dalam kumpulan data Anda dan latih kembali modelnya.
Menyebabkan
Anda mendapatkan peringatan ini jika jumlah nilai unik dari variabel yang ditentukan kurang dari 100. Ambang batas berbeda tergantung pada jenis variabel. Dengan nilai unik yang sangat sedikit, ada risiko bahwa kumpulan data tidak cukup umum untuk mencakup ruang fitur variabel itu. Akibatnya, model mungkin tidak menggeneralisasi dengan baik pada prediksi waktu nyata.
Solusi
Pertama, pastikan distribusi variabel mewakili lalu lintas bisnis nyata. Kemudian, Anda dapat mengadopsi lebih banyak variabel terlatih dengan kardinalitas yang lebih tinggi, seperti menggunakan full_customer_name
alih-alih first_name
dan last_name
secara terpisah atau mengubah tipe variabel menjadi CATEGORICAL, yang memungkinkan kardinalitas lebih rendah.
Ekspresi variabel salah
-
Jenis masalah: Informasi
Deskripsi
Lebih dari 50%
$email_variable_name
nilai tidak cocok dengan ekspresi reguler yang diharapkan http://emailregex.com. Pertimbangkan untuk memodifikasi$email_variable_name
dalam kumpulan data dan pelatihan ulang Anda untuk meningkatkan kinerja.Menyebabkan
Informasi ini ditampilkan jika lebih dari 50% catatan dalam dataset Anda memiliki nilai email yang tidak sesuai dengan ekspresi email biasa dan karena itu gagal validasi.
Solusi
Format nilai variabel email agar sesuai dengan ekspresi reguler. Jika ada nilai email yang hilang, kami sarankan untuk membiarkannya kosong alih-alih mengisinya dengan string seperti
none
,null
, ataumissing
. -
Jenis masalah: Informasi
Deskripsi
Lebih dari 50%
$IP_variable_name
nilai tidak cocok dengan ekspresi reguler untuk alamat IPv4 atau IPv6 https://digitalfortress.tech/tricks/top-15 - /. commonly-used-regex Pertimbangkan untuk memodifikasi$IP_variable_name
dalam kumpulan data dan pelatihan ulang Anda untuk meningkatkan kinerja.Menyebabkan
Informasi ini ditampilkan jika lebih dari 50% catatan dalam dataset Anda memiliki nilai IP yang tidak sesuai dengan ekspresi IP reguler dan karena itu gagal validasi.
Solusi
Format nilai IP agar sesuai dengan ekspresi reguler. Jika ada nilai IP yang hilang, kami sarankan untuk membiarkannya kosong alih-alih mengisinya dengan string seperti
none
,null
, ataumissing
. -
Jenis masalah: Informasi
Deskripsi
Lebih dari 50%
$phone_variable_name
nilai tidak cocok dengan ekspresi reguler telepon dasar /$pattern/. Pertimbangkan untuk memodifikasi$phone_variable_name
dalam kumpulan data dan pelatihan ulang Anda untuk meningkatkan kinerja.Menyebabkan
Informasi ini ditampilkan jika lebih dari 50% catatan dalam dataset Anda memiliki nomor telepon yang tidak sesuai dengan ekspresi nomor telepon biasa dan karena itu gagal validasi.
Solusi
Format nomor telepon agar sesuai dengan ekspresi reguler. Jika ada nomor telepon yang hilang, kami sarankan untuk membiarkannya kosong daripada mengisinya dengan string seperti
none
,null
, ataumissing
.
Entitas unik yang tidak mencukupi
Jenis masalah: Informasi
Deskripsi
Jumlah entitas unik kurang dari 1500. Pertimbangkan untuk memasukkan lebih banyak data untuk meningkatkan kinerja.
Menyebabkan
Informasi ini ditampilkan jika kumpulan data Anda memiliki jumlah entitas unik yang lebih kecil daripada nomor yang disarankan. Model Transaction Fraud Insights (TFI) menggunakan agregat deret waktu dan fitur transaksi generik untuk memberikan kinerja terbaik. Jika kumpulan data Anda memiliki terlalu sedikit entitas unik, maka sebagian besar data generik Anda seperti IP_ADDRESS, EMAIL_ADDRESS, mungkin tidak memiliki nilai unik. Kemudian, ada juga risiko bahwa kumpulan data ini tidak cukup umum untuk mencakup ruang fitur variabel itu. Akibatnya, model mungkin tidak menggeneralisasi dengan baik pada transaksi dari entitas baru yang baru.
Solusi
Sertakan lebih banyak entitas. Perpanjang rentang waktu data pelatihan Anda, jika diperlukan.