Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Dataset acara
Dataset peristiwa adalah data penipuan historis untuk perusahaan Anda. Anda memberikan data ini ke Amazon Fraud Detector untuk membuat model deteksi penipuan.
Amazon Fraud Detector menggunakan model pembelajaran mesin untuk menghasilkan prediksi penipuan. Setiap model dilatih menggunakan tipe model. Jenis model menentukan algoritma dan transformasi yang digunakan untuk melatih model. Pelatihan model adalah proses menggunakan kumpulan data yang Anda berikan untuk membuat model yang dapat memprediksi peristiwa penipuan. Untuk informasi selengkapnya, lihat Cara Kerja Amazon Fraud Detector
Dataset yang digunakan untuk membuat model deteksi penipuan memberikan rincian peristiwa. Acara adalah aktivitas bisnis yang dievaluasi akan risiko penipuan. Misalnya, pendaftaran akun dapat berupa acara. Data yang terkait dengan acara pendaftaran akun dapat berupa kumpulan data acara. Amazon Fraud Detector menggunakan kumpulan data ini untuk mengevaluasi penipuan pendaftaran akun.
Sebelum Anda memberikan kumpulan data Anda ke Amazon Fraud Detector untuk membuat model, pastikan untuk menentukan tujuan Anda untuk membuat model. Anda juga perlu menentukan bagaimana Anda ingin menggunakan model dan menentukan metrik Anda untuk mengevaluasi apakah model berkinerja berdasarkan kebutuhan spesifik Anda.
Misalnya, tujuan Anda untuk membuat model deteksi penipuan yang mengevaluasi penipuan pendaftaran akun adalah sebagai berikut:
Untuk menyetujui pendaftaran yang sah secara otomatis.
Untuk menangkap pendaftaran penipuan untuk penyelidikan selanjutnya.
Setelah Anda menentukan tujuan Anda, langkah selanjutnya adalah memutuskan bagaimana Anda ingin menggunakan model. Beberapa contoh untuk menggunakan model deteksi penipuan untuk mengevaluasi penipuan pendaftaran adalah sebagai berikut:
Untuk deteksi penipuan real-time untuk setiap pendaftaran akun.
Untuk evaluasi offline semua pendaftaran akun setiap jam.
Beberapa contoh metrik yang dapat digunakan untuk mengukur kinerja model meliputi:
Berkinerja lebih baik secara konsisten daripada baseline saat ini dalam produksi.
Menangkap X% pendaftaran penipuan dengan tingkat positif palsu Y%.
Menerima hingga 5% dari pendaftaran yang disetujui otomatis yang curang.
Struktur dataset acara
Amazon Fraud Detector mengharuskan Anda menyediakan kumpulan data peristiwa dalam file teks menggunakan nilai dipisahkan koma (CSV) dalam format UTF-8. Baris pertama file dataset CSV Anda harus berisi header file. Header file terdiri dari metadata peristiwa dan variabel peristiwa yang menggambarkan setiap elemen data yang terkait dengan acara tersebut. Header diikuti oleh data peristiwa. Setiap baris terdiri dari elemen data dari satu peristiwa.
-
Metadata acara - memberikan informasi tentang acara tersebut. Misalnya, EVENT_TIMESTAMP adalah metadata peristiwa yang menentukan waktu peristiwa terjadi. Bergantung pada kasus penggunaan bisnis Anda dan jenis model yang digunakan untuk membuat dan melatih model deteksi penipuan Anda, Amazon Fraud Detector mengharuskan Anda untuk menyediakan metadata peristiwa tertentu. Saat menentukan metadata peristiwa di header file CSV Anda, gunakan nama metadata peristiwa yang sama seperti yang ditentukan oleh Amazon Fraud Detector dan gunakan huruf besar saja.
-
Variabel peristiwa - mewakili elemen data yang spesifik untuk acara Anda yang ingin Anda gunakan untuk membuat dan melatih model deteksi penipuan Anda. Bergantung pada kasus penggunaan bisnis Anda dan jenis model yang digunakan untuk membuat dan melatih model deteksi penipuan, Amazon Fraud Detector mungkin mengharuskan atau merekomendasikan agar Anda menyediakan variabel peristiwa tertentu. Anda juga dapat secara opsional memberikan variabel peristiwa lain dari acara Anda yang ingin Anda sertakan dalam melatih model. Beberapa contoh variabel acara untuk acara pendaftaran online dapat berupa alamat email, alamat ip, dan nomor telepon. Saat menentukan nama variabel peristiwa di header file CSV Anda, gunakan nama variabel pilihan Anda dan gunakan huruf kecil saja.
-
Data peristiwa - mewakili data yang dikumpulkan dari peristiwa aktual. Dalam file CSV Anda, setiap baris mengikuti header file konsisten elemen data dari satu peristiwa. Misalnya, dalam file data acara pendaftaran online, setiap baris berisi data dari satu pendaftaran. Setiap elemen data di baris harus cocok dengan metadata peristiwa yang sesuai atau variabel peristiwa.
Berikut ini adalah contoh file CSV yang berisi data dari acara pendaftaran akun. Baris header berisi metadata peristiwa dalam huruf besar dan variabel peristiwa dalam huruf kecil diikuti oleh data peristiwa. Setiap baris dalam kumpulan data berisi elemen data yang terkait dengan pendaftaran akun tunggal dengan setiap elemen data yang sesuai dengan header.

Dapatkan persyaratan set data acara menggunakan penjelajah model Data
Jenis model yang Anda pilih untuk membuat model menentukan persyaratan untuk kumpulan data Anda. Amazon Fraud Detector menggunakan kumpulan data yang Anda berikan untuk membuat dan melatih model deteksi penipuan Anda. Sebelum Amazon Fraud Detector mulai membuat model Anda, ia memeriksa apakah kumpulan data memenuhi ukuran, format, dan persyaratan lainnya. Jika kumpulan data tidak memenuhi persyaratan, pembuatan dan pelatihan model gagal. Anda dapat menggunakan penjelajah model data untuk mengidentifikasi jenis model yang akan digunakan untuk kasus penggunaan bisnis Anda dan untuk mendapatkan wawasan tentang persyaratan kumpulan data untuk jenis model yang diidentifikasi.
Penjelajah model data
Data models explorer adalah alat di konsol Amazon Fraud Detector yang menyelaraskan kasus penggunaan bisnis Anda dengan tipe model yang didukung oleh Amazon Fraud Detector. Penjelajah model data juga memberikan wawasan tentang elemen data yang diperlukan oleh Amazon Fraud Detector untuk membuat model deteksi penipuan Anda. Sebelum Anda mulai menyiapkan kumpulan data acara, gunakan penjelajah model data untuk mengetahui jenis model yang direkomendasikan Amazon Fraud Detector untuk penggunaan bisnis Anda dan juga untuk melihat daftar elemen data wajib, direkomendasikan, dan opsional yang Anda perlukan untuk membuat kumpulan data Anda.
Untuk menggunakan penjelajah model data,
-
Buka Konsol AWS Manajemen
dan masuk ke akun Anda. Arahkan ke Amazon Fraud Detector. -
Di panel navigasi kiri, pilih Penjelajah model data.
-
Di halaman Penjelajah model data, di bawah Kasus penggunaan bisnis, pilih kasus penggunaan bisnis yang ingin Anda evaluasi untuk risiko penipuan.
-
Amazon Fraud Detector menampilkan jenis model yang direkomendasikan yang cocok dengan kasus penggunaan bisnis Anda. Jenis model mendefinisikan algoritme, pengayaan, dan transformasi yang akan digunakan Amazon Fraud Detector untuk melatih model deteksi penipuan Anda.
Catat jenis model yang direkomendasikan. Anda akan membutuhkannya nanti saat membuat model Anda.
catatan
Jika Anda tidak menemukan kasus penggunaan bisnis Anda, gunakan tautan hubungi kami di deskripsi untuk memberi kami rincian kasus penggunaan bisnis Anda. Kami akan merekomendasikan jenis model yang akan digunakan untuk membuat model deteksi penipuan untuk kasus penggunaan bisnis Anda.
-
Panel wawasan model data memberikan wawasan tentang elemen data wajib, direkomendasikan, dan opsional yang diperlukan untuk membuat dan melatih model deteksi penipuan untuk kasus penggunaan bisnis Anda. Gunakan informasi di panel wawasan untuk mengumpulkan data acara dan membuat kumpulan data Anda.
Kumpulkan data acara
Mengumpulkan data acara Anda merupakan langkah penting dalam membuat model Anda. Ini karena kinerja model Anda dalam memprediksi penipuan tergantung pada kualitas dataset Anda. Saat Anda mulai mengumpulkan data acara, ingatlah daftar elemen data yang disediakan oleh penjelajah model Data bagi Anda untuk membuat kumpulan data Anda. Anda perlu mengumpulkan semua data wajib (metadata peristiwa) dan memutuskan elemen data apa yang direkomendasikan dan opsional (variabel peristiwa) untuk disertakan berdasarkan tujuan Anda untuk membuat model. Penting juga untuk memutuskan format setiap variabel peristiwa yang ingin Anda sertakan dan ukuran total kumpulan data Anda.
Kualitas dataset acara
Untuk mengumpulkan dataset berkualitas tinggi untuk model Anda, kami merekomendasikan hal berikut:
Kumpulkan data matang- Menggunakan data terbaru membantu mengidentifikasi pola penipuan terbaru. Namun, untuk mendeteksi kasus penggunaan penipuan, biarkan data matang. Periode jatuh tempo tergantung pada bisnis Anda, dan dapat berlangsung dari dua minggu hingga tiga bulan. Misalnya, jika acara Anda termasuk transaksi kartu kredit, maka jatuh tempo data mungkin ditentukan oleh periode chargeback kartu kredit atau waktu yang dibutuhkan oleh penyidik untuk membuat penentuan.
Pastikan bahwa kumpulan data yang digunakan untuk melatih model memiliki waktu yang cukup untuk matang sesuai bisnis Anda.
Pastikan distribusi data tidak melayang secara signifikan- Contoh proses pelatihan model Amazon Fraud Detector dan mempartisi kumpulan data Anda berdasarkan EVENT_TIMESTAMP. Misalnya, jika kumpulan data Anda terdiri dari peristiwa penipuan yang ditarik dari 6 bulan terakhir, tetapi hanya bulan terakhir dari peristiwa yang sah yang disertakan, distribusi data dianggap hanyut dan tidak stabil. Dataset yang tidak stabil dapat menyebabkan bias dalam evaluasi kinerja model. Jika Anda menemukan distribusi data melayang secara signifikan, pertimbangkan untuk menyeimbangkan kumpulan data Anda dengan mengumpulkan data yang mirip dengan distribusi data saat ini.
Pastikan kumpulan data mewakili kasus penggunaan di mana model diimplementasikan/diuji- Jika tidak, perkiraan kinerja dapat menjadi bias. Katakanlah Anda menggunakan model untuk secara otomatis menolak semua pelamar di pintu, tetapi model Anda dilatih dengan kumpulan data yang memiliki data/label historis yang sebelumnya disetujui. Kemudian, evaluasi model Anda mungkin tidak akurat karena evaluasi didasarkan pada kumpulan data yang tidak memiliki representasi dari pelamar yang ditolak.
Format data acara
Amazon Fraud Detector mengubah sebagian besar data Anda ke format yang diperlukan sebagai bagian dari proses pelatihan modelnya. Namun, ada beberapa format standar yang dapat Anda gunakan dengan mudah untuk menyediakan data Anda yang dapat membantu menghindari masalah di kemudian hari ketika Amazon Fraud Detector memvalidasi kumpulan data Anda. Tabel berikut memberikan panduan tentang format untuk menyediakan metadata acara yang direkomendasikan.
catatan
Saat Anda membuat file CSV Anda, pastikan untuk memasukkan nama metadata peristiwa seperti yang tercantum di bawah ini, dalam huruf besar.
Nama metadata | format | Diperlukan |
---|---|---|
EVENT_ID |
Jika disediakan, itu harus memenuhi persyaratan berikut:
|
Tergantung pada jenis model |
EVENT_TIMESTAMP |
|
Ya |
ENTITY_ID |
|
Tergantung pada jenis model |
ENTITY_TYPE |
Anda dapat menggunakan string apa pun |
Tergantung pada jenis model |
EVENT_LABEL |
Anda dapat menggunakan label apa pun, seperti “penipuan”, “legit”, “1", atau “0". |
Diperlukan jika LABEL_TIMESTAMP disertakan |
LABEL_TIMESTAMP |
Itu harus mengikuti format stempel waktu. |
Diperlukan jika EVENT_LABEL disertakan |
Untuk informasi tentang variabel peristiwa, lihat Variabel.
penting
Jika Anda membuat model Account Takeover Insights (ATI), lihat Mempersiapkan data detail tentang menyiapkan dan memilih data.
Nilai nol atau hilang
Variabel EVENT_TIMESTAMP dan EVENT_LABEL tidak boleh berisi nilai nol atau yang hilang. Anda dapat memiliki nilai nol atau hilang untuk variabel lain. Namun, kami menyarankan Anda hanya menggunakan sejumlah kecil nol untuk variabel-variabel tersebut. Jika Amazon Fraud Detector menentukan bahwa ada terlalu banyak nilai nol atau hilang untuk variabel peristiwa, maka secara otomatis akan menghilangkan variabel dari model Anda.
Variabel minimum
Saat Anda membuat model, kumpulan data harus menyertakan setidaknya dua variabel peristiwa selain metadata peristiwa yang diperlukan. Dua variabel peristiwa harus lulus pemeriksaan validasi.
Ukuran dataset acara
Diperlukan
Dataset Anda harus memenuhi persyaratan dasar berikut untuk pelatihan model yang sukses.
-
Data dari setidaknya 100 peristiwa.
-
Dataset harus mencakup setidaknya 50 peristiwa (baris) yang diklasifikasikan sebagai penipuan.
Disarankan
Kami merekomendasikan bahwa kumpulan data Anda menyertakan yang berikut ini untuk pelatihan model yang sukses dan kinerja model yang baik.
-
Sertakan minimal tiga minggu data historis, tetapi paling baik enam bulan data.
-
Sertakan minimal 10K total data peristiwa.
-
Sertakan setidaknya 400 peristiwa (baris) yang diklasifikasikan sebagai penipuan dan 400 peristiwa (baris) diklasifikasikan sebagai sah.
-
Sertakan lebih dari 100 entitas unik, jika jenis model Anda memerlukan ENTITY_ID.
Validasi kumpulan data
Sebelum Amazon Fraud Detector mulai membuat model Anda, ia memeriksa apakah variabel yang disertakan dalam kumpulan data untuk melatih model memenuhi ukuran, format, dan persyaratan lainnya. Jika dataset tidak lulus validasi, model tidak dibuat. Anda harus terlebih dahulu memperbaiki variabel yang tidak lulus validasi sebelum Anda membuat model. Amazon Fraud Detector memberi Anda profiler Data yang dapat Anda gunakan untuk membantu mengidentifikasi dan memperbaiki masalah dengan kumpulan data Anda sebelum mulai melatih model
Profiler data
Amazon Fraud Detector menyediakan alat sumber terbuka untuk membuat profil dan menyiapkan data Anda untuk pelatihan model. Profiler data otomatis ini membantu Anda menghindari kesalahan persiapan data umum dan mengidentifikasi potensi masalah seperti tipe variabel yang salah dipetakan yang akan berdampak negatif pada kinerja model. Profiler menghasilkan laporan intuitif dan komprehensif dari kumpulan data Anda, termasuk statistik variabel, distribusi label, analisis kategoris dan numerik, serta korelasi variabel dan label. Ini memberikan panduan tentang tipe variabel serta opsi untuk mengubah kumpulan data menjadi format yang diperlukan oleh Amazon Fraud Detector.
Menggunakan profiler data
Profiler data otomatis dibangun dengan AWS CloudFormation tumpukan, yang dapat Anda luncurkan dengan mudah dengan beberapa klik. Semua kode tersedia di Github
Kesalahan kumpulan data peristiwa umum
Berikut ini adalah beberapa masalah umum yang dihadapi Amazon Fraud Detector saat memvalidasi kumpulan data peristiwa. Setelah Anda menjalankan profiler data, gunakan daftar ini untuk memeriksa dataset Anda untuk kesalahan sebelum membuat model Anda.
File CSV tidak dalam format UTF-8.
Jumlah peristiwa dalam dataset kurang dari 100.
Jumlah kejadian yang diidentifikasi sebagai penipuan atau sah kurang dari 50.
Jumlah entitas unik yang terkait dengan peristiwa penipuan kurang dari 100.
Lebih dari 0,1% nilai dalam EVENT_TIMESTAMP berisi nol atau nilai selain format tanggal/stempel waktu yang didukung.
Lebih dari 1% nilai di EVENT_LABEL berisi nol atau nilai selain yang ditentukan dalam tipe acara.
Kurang dari dua variabel tersedia untuk pelatihan model.
Penyimpanan dataset
Setelah mengumpulkan kumpulan data, Anda menyimpan kumpulan data secara internal menggunakan Amazon Fraud Detector atau secara eksternal dengan Amazon Simple Storage Service (Amazon S3). Kami menyarankan Anda memilih tempat menyimpan dataset Anda berdasarkan model yang Anda gunakan untuk menghasilkan prediksi penipuan. Untuk informasi selengkapnya tentang jenis model, lihat Memilih jenis model. Untuk informasi selengkapnya tentang menyimpan kumpulan data Anda, lihatPenyimpanan data acara.