Set data data peristiwa - Amazon Fraud Detector

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Set data data peristiwa

Dataset peristiwa adalah data penipuan historis untuk perusahaan Anda. Anda memberikan data ini ke Amazon Fraud Detector untuk membuat model deteksi penipuan.

Amazon Fraud Detector menggunakan model machine learning untuk menghasilkan prediksi penipuan. Setiap model dilatih menggunakan tipe model. Jenis model menentukan algoritma dan transformasi yang digunakan untuk melatih model. Pelatihan model adalah proses menggunakan kumpulan data yang Anda berikan untuk membuat model yang dapat memprediksi kejadian penipuan. Untuk informasi selengkapnya, lihat Cara kerja Amazon Fraud Detector

Dataset yang digunakan untuk membuat model deteksi penipuan memberikan rincian peristiwa. Acara adalah aktivitas bisnis yang dievaluasi akan risiko penipuan. Misalnya, pendaftaran akun bisa menjadi acara. Data yang terkait dengan acara pendaftaran akun dapat berupa kumpulan data acara. Amazon Fraud Detector menggunakan kumpulan data ini untuk mengevaluasi penipuan pendaftaran akun.

Sebelum Anda memberikan dataset Anda ke Amazon Fraud Detector untuk membuat model, pastikan untuk menentukan tujuan Anda untuk membuat model. Anda juga perlu menentukan bagaimana Anda ingin menggunakan model dan menentukan metrik Anda untuk mengevaluasi apakah model berkinerja berdasarkan kebutuhan spesifik Anda.

Misalnya, tujuan Anda untuk membuat model deteksi penipuan yang mengevaluasi penipuan pendaftaran akun adalah sebagai berikut:

  • Untuk menyetujui pendaftaran yang sah secara otomatis.

  • Untuk menangkap pendaftaran penipuan untuk penyelidikan nanti.

Setelah Anda menentukan tujuan Anda, langkah selanjutnya adalah memutuskan bagaimana Anda ingin menggunakan model. Beberapa contoh untuk menggunakan model deteksi penipuan untuk mengevaluasi penipuan pendaftaran adalah sebagai berikut:

  • Untuk deteksi penipuan real-time untuk setiap pendaftaran akun.

  • Untuk evaluasi offline semua pendaftaran akun setiap jam.

Beberapa contoh metrik yang dapat digunakan untuk mengukur kinerja model meliputi:

  • Melakukan secara konsisten lebih baik daripada baseline saat ini dalam produksi.

  • Menangkap pendaftaran penipuan X% dengan tingkat positif palsu Y%.

  • Menerima hingga 5% dari pendaftaran yang disetujui secara otomatis yang bersifat penipuan.

Struktur data data peristiwa

Amazon Fraud Detector mengharuskan Anda menyediakan kumpulan data peristiwa dalam file teks menggunakan nilai dipisahkan koma (CSV) dalam format UTF-8. Baris pertama file set data CSV Anda harus berisi header file. Header file terdiri dari metadata peristiwa dan variabel acara yang menggambarkan setiap elemen data yang terkait dengan acara tersebut. Header diikuti oleh data acara. Setiap baris terdiri dari elemen data dari satu peristiwa.

  • Data peristiwa - memberikan informasi tentang peristiwa tersebut. Misalnya, EVENT_TIMESTAMP adalah metadata peristiwa yang menentukan peristiwa waktu terjadi. Bergantung pada kasus penggunaan bisnis Anda dan jenis model yang digunakan untuk membuat dan melatih model deteksi penipuan Anda, Amazon Fraud Detector mengharuskan Anda untuk menyediakan metadata peristiwa tertentu. Saat menentukan metadata peristiwa di header file CSV Anda, gunakan nama metadata peristiwa yang sama seperti yang ditentukan oleh Amazon Fraud Detector dan gunakan huruf besar saja.

  • Variabel peristiwa - mewakili elemen data yang spesifik untuk acara Anda yang ingin Anda gunakan untuk membuat dan melatih model deteksi penipuan Anda. Bergantung pada kasus penggunaan bisnis Anda dan jenis model yang digunakan untuk membuat dan melatih model deteksi penipuan, Amazon Fraud Detector mungkin memerlukan atau menyarankan Anda untuk menyediakan variabel peristiwa tertentu. Anda juga dapat menyediakan variabel acara lain dari acara Anda yang ingin Anda sertakan dalam melatih model. Beberapa contoh variabel acara untuk acara pendaftaran online dapat berupa alamat email, alamat ip, dan nomor telepon. Saat menentukan nama variabel acara di header file CSV Anda, gunakan nama variabel pilihan Anda dan gunakan huruf kecil saja.

  • Data acara - mewakili data yang dikumpulkan dari acara aktual. Dalam file CSV Anda, setiap baris yang mengikuti header file terdiri dari elemen data dari satu peristiwa. Misalnya, dalam file data acara pendaftaran online, setiap baris berisi data dari satu pendaftaran. Setiap elemen data dalam baris harus cocok dengann metadata peristiwa yang sesuai atau variabel acara.

Berikut ini adalah contoh file CSV yang berisi data dari peristiwa pendaftaran akun. Baris header berisi metadata peristiwa dalam variabel huruf besar dan acara dalam huruf kecil diikuti oleh data acara. Setiap baris dalam dataset berisi elemen data yang terkait dengan pendaftaran akun tunggal dengan setiap elemen data yang sesuai dengan header.

CSV file showing event metadata and variables with sample data for account registration events.

Dapatkan persyaratan dataset acara menggunakan data model explorer

Jenis model yang Anda pilih untuk membuat model menentukan persyaratan untuk kumpulan data Anda. Amazon Fraud Detector menggunakan kumpulan data yang Anda berikan untuk membuat dan melatih model deteksi penipuan Anda. Sebelum Amazon Fraud Detector mulai membuat model Anda, Amazon Fraud Detector akan memeriksa apakah dataset memenuhi ukuran, format, dan persyaratan lainnya. Jika kumpulan data tidak memenuhi persyaratan, pembuatan dan pelatihan model gagal. Anda dapat menggunakan penjelajah model data untuk mengidentifikasi jenis model yang akan digunakan untuk kasus penggunaan bisnis Anda dan untuk mendapatkan wawasan tentang persyaratan set data untuk jenis model yang diidentifikasi.

Model data

Penjelajah model data adalah alat di konsol Amazon Fraud Detector yang menyelaraskan kasus penggunaan bisnis Anda dengan jenis model yang didukung oleh Amazon Fraud Detector. Penjelajah model data juga memberikan wawasan tentang elemen data yang diperlukan oleh Amazon Fraud Detector untuk membuat model deteksi penipuan Anda. Sebelum Anda mulai menyiapkan kumpulan data peristiwa, gunakan penjelajah model data untuk mengetahui jenis model yang direkomendasikan Amazon Fraud Detector untuk penggunaan bisnis Anda dan juga untuk melihat daftar elemen data wajib, direkomendasikan, dan opsional yang Anda perlukan untuk membuat kumpulan data Anda.

Untuk menggunakan data model explorer,
  1. Lanjutkan konsolAWS manajemen dan masuk ke akun Anda. Arahkan ke Amazon Fraud Detector.

  2. Di panel navigasi di sebelah kiri, pilih Data models explorer.

  3. Di halaman Penjelajah model data, dalam kasus penggunaan Bisnis, pilih kasus penggunaan bisnis yang ingin Anda evaluasi untuk risiko penipuan.

  4. Amazon Fraud Detector menampilkan jenis model yang direkomendasikan yang cocok dengan kasus penggunaan bisnis Anda. Jenis model mendefinisikan algoritme, pengayaan, dan transformasi yang akan digunakan Amazon Fraud Detector untuk melatih model deteksi penipuan Anda.

    Perhatikan tipe model yang direkomendasikan. Anda akan membutuhkan ini nanti saat Anda membuat model Anda.

    catatan

    Jika Anda tidak menemukan kasus penggunaan bisnis Anda, gunakan tautan hubungi kami dalam deskripsi untuk memberikan detail kasus penggunaan bisnis Anda kepada kami. Kami akan merekomendasikan jenis model yang akan digunakan untuk membuat model deteksi penipuan untuk kasus penggunaan bisnis Anda.

  5. Panel wawasan model data memberikan wawasan tentang elemen data wajib, direkomendasikan, dan opsional yang diperlukan untuk membuat dan melatih model deteksi penipuan untuk kasus penggunaan bisnis Anda. Gunakan informasi di panel wawasan untuk mengumpulkan data acara Anda dan membuat kumpulan data Anda.

Mengumpulkan data peristiwa

Mengumpulkan data acara Anda adalah langkah penting dalam membuat model Anda. Ini karena kinerja model Anda dalam memprediksi penipuan tergantung pada kualitas kumpulan data Anda. Saat Anda mulai mengumpulkan data acara Anda, ingatlah daftar elemen data yang disediakan penjelajah model Data bagi Anda untuk membuat kumpulan data Anda. Anda perlu mengumpulkan semua data wajib (metadata peristiwa) dan memutuskan elemen data yang direkomendasikan dan opsional (variabel peristiwa) untuk disertakan berdasarkan tujuan Anda untuk membuat model. Penting juga untuk menentukan format setiap variabel peristiwa yang ingin Anda sertakan dan ukuran total kumpulan data Anda.

Kualitas set data acara

Untuk mengumpulkan set data berkualitas tinggi untuk model Anda, kami merekomendasikan hal berikut:

  • Kumpulkan data matang- Menggunakan data terbaru membantu mengidentifikasi pola penipuan terbaru. Namun, untuk mendeteksi kasus penggunaan penipuan, izinkan data menjadi matang. Masa jatuh tempo tergantung pada bisnis Anda, dan dapat berlangsung dari dua minggu hingga tiga bulan. Misalnya, jika acara Anda termasuk transaksi kartu kredit, maka jatuh tempo data mungkin ditentukan oleh periode tagihan balik kartu kredit atau waktu yang diambil oleh penyidik untuk membuat penentuan.

    Pastikan bahwa dataset yang digunakan untuk melatih model memiliki waktu yang cukup untuk matang sesuai bisnis Anda.

  • Pastikan distribusi data tidak melayang secara signifikan- sampel proses pelatihan model Amazon Fraud Detector dan mempartisi kumpulan data Anda berdasarkan EVENT_TIMESTAMP. Misalnya, jika kumpulan data Anda terdiri dari peristiwa penipuan yang diambil dari 6 bulan terakhir, tetapi hanya bulan terakhir peristiwa yang sah yang disertakan, distribusi data dianggap hanyut dan tidak stabil. Dataset yang tidak stabil dapat menyebabkan bias dalam evaluasi kinerja model. Jika Anda menemukan distribusi data melayang secara signifikan, pertimbangkan untuk menyeimbangkan kumpulan data Anda dengan mengumpulkan data yang mirip dengan distribusi data saat ini.

  • Pastikan dataset mewakili kasus penggunaan di mana model diimplementasikan/diuji- Jika tidak, perkiraan kinerja bisa bias. Mari kita katakan bahwa Anda menggunakan model untuk secara otomatis menolak semua pelamar in-door, tetapi model Anda dilatih dengan dataset yang memiliki data/label historis yang sebelumnya disetujui. Kemudian, evaluasi model Anda mungkin tidak akurat karena evaluasi didasarkan pada kumpulan data yang tidak memiliki representasi dari pelamar yang ditolak.

Format data peristiwa

Amazon Fraud Detector mengubah sebagian besar data Anda ke format yang diperlukan sebagai bagian dari proses pelatihan modelnya. Namun, ada beberapa format standar yang dapat Anda gunakan dengan mudah untuk menyediakan data Anda yang dapat membantu menghindari masalah nanti saat Amazon Fraud Detector memvalidasi kumpulan data Anda. Tabel berikut memberikan panduan tentang format untuk menyediakan metadata peristiwa yang direkomendasikan.

catatan

Saat Anda membuat file CSV, pastikan untuk memasukkan nama metadata peristiwa seperti yang tercantum di bawah ini, dalam huruf besar.

Nama metadata Format Diperlukan

EVENT_ID

Jika disediakan, itu harus memenuhi persyaratan berikut:

  • Hal ini unik untuk acara itu.

  • Ini mewakili informasi yang berarti bagi bisnis Anda.

  • Ini mengikuti pola ekspresi reguler (misalnya,^[0-9a-z_-]+$.)

  • Selain persyaratan di atas, sebaiknya Anda tidak menambahkan stempel waktu ke EVENT_ID. Melakukan hal itu dapat menyebabkan masalah saat Anda memperbarui acara. Ini karena Anda harus memberikan EVENT_ID yang sama persis jika Anda melakukan ini.

Tergantung pada jenis model

EVENT_TIMESTAMP

  • Ini harus ditentukan dalam salah satu format berikut:

    • %YYY-%mm-%ddT%hh: %mm: %ssZ (standar ISO 8601 dalam UTC hanya tanpa milidetik)

      Contoh: 2019-11-30T 13:01:01 Z

    • %yyyy/%mm/%dd %hh: %mm: %ss (AM/PM)

      Contoh: 2019/11/30 13:01:01 PM, atau 2019/11/30 13:01:01

    • %mm/%dd/%yyyy %hh: %mm: %ss

      Contoh: 30/11/2019 13:01:01 WIB, 30/11/2019 13:01:01

    • %mm/%dd/%yy %hh: %mm: %ss

      Contoh: 11/30/19 13:01:01 PM, 11/30/19 13:01:01

  • Amazon Fraud Detector membuat asumsi berikut saat mengurai format tanggal/stempel waktu untuk cap waktu peristiwa:

    • Jika Anda menggunakan standar ISO 8601, itu harus sama persis dengan spesifikasi sebelumnya

    • Jika Anda menggunakan salah satu format lain, ada fleksibilitas tambahan:

      • Selama berbulan-bulan dan berhari-hari, Anda dapat memberikan satu atau dua digit. Misalnya, 1/12/2019 adalah tanggal yang valid.

      • Anda tidak perlu menyertakan hh:mm:ss jika Anda tidak memilikinya (yaitu, Anda cukup memberikan tanggal). Anda juga dapat memberikan subset hanya jam dan menit (misalnya, hh:mm). Hanya menyediakan jam tidak didukung. Milidetik juga tidak didukung.

      • Jika Anda memberikan label AM/PM, jam 12 jam diasumsikan. Jika tidak ada informasi AM/PM, jam 24 jam diasumsikan.

      • Anda dapat menggunakan “/” atau “-” sebagai pembatas untuk elemen tanggal. “:” diasumsikan untuk elemen timestamp.

Ya

ENTITY_ID

  • Itu harus mengikuti pola ekspresi reguler:^[0-9A-Za-z_.@+-]+$.

  • Jika id entitas tidak tersedia pada saat evaluasi, tentukan id entitas sebagai tidak diketahui.

Tergantung pada jenis model

ENTITY_TYPE

Anda dapat menggunakan string apa pun

Tergantung pada jenis model

EVENT_LABEL

Anda dapat menggunakan label apa pun, seperti “penipuan”, “legit”, “1", atau “0".

Diperlukan jika LABEL_TIMESTAMP disertakan

LABEL_TIMESTAMP

Ini harus mengikuti format stempel waktu.

Diperlukan jika EVENT_LABEL disertakan

Untuk informasi tentang variabel acara, lihat Variabel.

penting

Jika Anda membuat model Account Takeover Insights (ATI), lihatMempersiapkan data detail tentang menyiapkan dan memilih data.

Nilai nol atau hilang

Variabel EVENT_TIMESTAMP dan EVENT_LABEL tidak boleh mengandung nilai null atau hilang. Anda dapat memiliki nilai nol atau hilang untuk variabel lain. Namun, kami menyarankan Anda hanya menggunakan sejumlah kecil untuk variabel tersebut. Jika Amazon Fraud Detector menentukan bahwa ada terlalu banyak nilai nol atau hilang untuk variabel peristiwa, maka secara otomatis akan menghilangkan variabel dari model Anda.

Variabel minimum

Saat Anda membuat model, kumpulan data harus menyertakan setidaknya dua variabel peristiwa selain metadata peristiwa yang diperlukan. Kedua variabel acara harus lulus pemeriksaan validasi.

Ukuran dataset acara

Diperlukan

Kumpulan data Anda harus memenuhi persyaratan dasar berikut untuk pelatihan model yang berhasil.

  • Data dari setidaknya 100 peristiwa.

  • Dataset harus menyertakan setidaknya 50 peristiwa (baris) yang diklasifikasikan sebagai penipuan.

Disarankan

Kami menyarankan agar kumpulan data Anda menyertakan yang berikut ini untuk pelatihan model yang sukses dan kinerja model yang baik.

  • Sertakan minimal tiga minggu data historis, tetapi paling baik enam bulan data.

  • Sertakan minimal 10K total data peristiwa.

  • Sertakan setidaknya 400 peristiwa (baris) yang diklasifikasikan sebagai penipuan dan 400 peristiwa (baris) diklasifikasikan sebagai sah.

  • Sertakan lebih dari 100 entitas unik, jika tipe model Anda memerlukan ENTITY_ID.

Validasi data

Sebelum Amazon Fraud Detector mulai membuat model Anda, Amazon Fraud Detector akan memeriksa apakah variabel yang disertakan dalam kumpulan data untuk melatih model memenuhi ukuran, format, dan persyaratan lainnya. Jika dataset tidak lulus validasi, model tidak dibuat. Anda harus terlebih dahulu memperbaiki variabel yang tidak lulus validasi sebelum Anda membuat model. Amazon Fraud Detector memberi Anda profil Data yang dapat Anda gunakan untuk membantu Anda mengidentifikasi dan memperbaiki masalah dengan kumpulan data Anda sebelum Anda mulai melatih model

Profiler data

Amazon Fraud Detector menyediakan alat sumber terbuka untuk membuat profil dan menyiapkan data Anda untuk pelatihan model. Profiler data otomatis ini membantu Anda menghindari kesalahan persiapan data umum dan mengidentifikasi potensi masalah seperti jenis variabel yang salah dipetakan yang akan berdampak negatif pada kinerja model. Profiler menghasilkan laporan intuitif dan komprehensif dari kumpulan data Anda, termasuk statistik variabel, distribusi label, analisis kategoris dan numerik, dan korelasi variabel dan label. Ini memberikan panduan tentang jenis variabel serta opsi untuk mengubah kumpulan data menjadi format yang diperlukan Amazon Fraud Detector.

Menggunakan data profiler

Profiler data otomatis dibuat denganAWS CloudFormation tumpukan, yang dapat Anda luncurkan dengan mudah dengan beberapa klik. Semua kode tersedia di Github. Untuk informasi tentang cara menggunakan profiler data, ikuti petunjuk arah di blog kami Melatih model lebih cepat dengan profiler data otomatis untuk Amazon Fraud Detector

Kesalahan dataset peristiwa umum

Berikut ini adalah beberapa masalah umum yang dihadapi Amazon Fraud Detector saat memvalidasi kumpulan data peristiwa. Setelah Anda menjalankan profiler data, gunakan daftar ini untuk memeriksa kesalahan set data Anda sebelum membuat model Anda.

  • File CSV tidak dalam format UTF-8.

  • Jumlah peristiwa dalam dataset kurang dari 100.

  • Jumlah kejadian yang diidentifikasi sebagai penipuan atau sah kurang dari 50.

  • Jumlah entitas unik yang terkait dengan peristiwa penipuan kurang dari 100.

  • Lebih dari 0,1% nilai dalam EVENT_TIMESTAMP berisi null atau nilai selain format tanggal/stempel waktu yang didukung.

  • Lebih dari 1% dari nilai-nilai dalam EVENT_LABEL berisi nulls atau nilai-nilai selain yang didefinisikan dalam jenis peristiwa.

  • Kurang dari dua variabel tersedia untuk pelatihan model.

Penyimpanan data data

Setelah set data, Anda menyimpan set data secara internal menggunakan Amazon Fraud Detector atau secara eksternal dengan Amazon Simple Storage Service (Amazon S3). Kami menyarankan Anda memilih tempat menyimpan kumpulan data berdasarkan model yang Anda gunakan untuk menghasilkan prediksi penipuan. Untuk informasi selengkapnya tentang jenis model, lihat Memilih jenis model. Untuk informasi selengkapnya tentang menyimpan dataset Anda, lihatPenyimpanan data peristiwa.