Buat file CSV - Amazon Fraud Detector

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat file CSV

Amazon Fraud Detector mengharuskan baris pertama file CSV Anda berisi header kolom. Header kolom dalam file CSV Anda harus memetakan ke variabel yang didefinisikan dalam jenis peristiwa. Untuk contoh dataset, lihatMendapatkan dan meng-upload contoh dataset

Model Wawasan Penipuan Online memerlukan kumpulan data pelatihan yang memiliki setidaknya 2 variabel dan hingga 100 variabel. Selain variabel peristiwa, kumpulan data pelatihan harus berisi header berikut:

  • EVENT_TIMESTAMP - Mendefinisikan kapan peristiwa terjadi

  • EVENT_LABEL - Mengklasifikasikan peristiwa sebagai penipuan atau sah. Nilai-nilai dalam kolom harus sesuai dengan nilai-nilai yang didefinisikan dalam jenis acara.

Contoh data CSV berikut mewakili peristiwa pendaftaran historis dari pedagang online:

EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
catatan

File data CSV dapat berisi tanda kutip ganda dan koma sebagai bagian dari data Anda.

Versi yang disederhanakan dari jenis acara yang sesuai diwakili di bawah ini. Variabel acara sesuai dengan header dalam file CSV dan nilai-nilaiEVENT_LABEL sesuai dengan nilai-nilai dalam daftar label.

( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )

Format Timestamp Peristiwa

Pastikan stempel waktu acara Anda dalam format yang diperlukan. Sebagai bagian dari proses pembuatan model, jenis model Wawasan Penipuan Online memerintahkan data Anda berdasarkan stempel waktu peristiwa, dan membagi data Anda untuk tujuan pelatihan dan pengujian. Untuk mendapatkan perkiraan kinerja yang adil, model pertama melatih pada set data pelatihan, dan kemudian menguji model ini pada set data pengujian.

Amazon Fraud Detector mendukung format tanggal/stempel waktu berikut untuk nilaiEVENT_TIMESTAMP selama pelatihan model:

  • %YYY-%mm-%ddT%hh: %mm: %ssZ (standar ISO 8601 dalam UTC hanya tanpa milidetik)

    Contoh: 2019-11-30T 13:01:01 Z

  • %yyyy/%mm/%dd %hh: %mm: %ss (AM/PM)

    Contoh: 2019/11/30 13:01:01 PM, atau 2019/11/30 13:01:01

  • %mm/%dd/%yyyy %hh: %mm: %ss

    Contoh: 30/11/2019 13:01:01 WIB, 30/11/2019 13:01:01

  • %mm/%dd/%yy %hh: %mm: %ss

    Contoh: 11/30/19 13:01:01 PM, 11/30/19 13:01:01

Amazon Fraud Detector membuat asumsi berikut saat mengurai format tanggal/stempel waktu untuk cap waktu peristiwa:

  • Jika Anda menggunakan standar ISO 8601, itu harus sama persis dengan spesifikasi sebelumnya

  • Jika Anda menggunakan salah satu format lain, ada fleksibilitas tambahan:

    • Selama berbulan-bulan dan berhari-hari, Anda dapat memberikan satu atau dua digit. Misalnya, 1/12/2019 adalah tanggal yang valid.

    • Anda tidak perlu menyertakan hh:mm:ss jika Anda tidak memilikinya (iya nih, Anda hanya dapat memberikan tanggal). Anda juga dapat memberikan subset hanya jam dan menit (misalnya, hh:mm). Hanya menyediakan jam tidak mendukung. Milidetik juga tidak didukung.

    • Jika Anda memberikan label AM/PM, jam 12 jam diasumsikan. Jika tidak ada informasi AM/PM, jam 24 jam diasumsikan.

    • Anda dapat menggunakan “/” atau “-” sebagai pembatas untuk elemen tanggal. “:” diasumsikan untuk elemen timestamp.

Sampling dataset Anda sepanjang waktu

Kami menyarankan Anda memberikan contoh penipuan dan sampel yang sah dari rentang waktu yang sama. Misalnya, jika Anda memberikan peristiwa penipuan dari 6 bulan terakhir, Anda juga harus menyediakan acara yang sah yang merata rentang periode waktu yang sama. Jika kumpulan data Anda berisi distribusi penipuan dan peristiwa yang sah yang sangat tidak merata, Anda mungkin menerima kesalahan berikut: “Distribusi penipuan di sepanjang waktu tidak dapat diterima secara fluktuasi. Tidak dapat membagi dataset dengan benar.” Biasanya, perbaikan termudah untuk kesalahan ini adalah memastikan bahwa peristiwa penipuan dan peristiwa yang sah disampel secara merata di jangka waktu yang sama. Anda juga mungkin perlu menghapus data jika Anda mengalami lonjakan besar dalam penipuan dalam jangka waktu singkat.

Jika Anda tidak dapat menghasilkan data yang cukup untuk membuat kumpulan data yang didistribusikan secara merata, salah satu pendekatannya adalah mengacak EVENT_TIMESTAMP peristiwa Anda sehingga didistribusikan secara merata. Namun, ini sering mengakibatkan metrik kinerja menjadi tidak realistis karena Amazon Fraud Detector menggunakan EVENT_TIMESTAMP untuk mengevaluasi model pada subset peristiwa yang sesuai dalam kumpulan data Anda.

Null dan nilai yang hilang

Amazon Fraud Detector menangani nilai nol dan nilai yang hilang. Namun, persentase nulls untuk variabel harus dibatasi. Kolom EVENT_TIMESTAMP dan EVENT_LABEL tidak boleh mengandung nilai yang hilang.

Validasi file

Amazon Fraud Detector akan gagal melatih model jika salah satu dari persyaratan berikut dipicu:

  • Jika CSV tidak dapat diurai

  • Jika tipe data untuk kolom salah