Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Persyaratan data pelatihan untuk Clean Rooms
Agar berhasil membuat model yang mirip, data pelatihan Anda harus memenuhi persyaratan berikut:
-
Data pelatihan harus dalam format Parket, CSV, atau JSON.
-
Data pelatihan Anda harus dikatalogkan. AWS Glue Untuk informasi selengkapnya, lihat Memulai Katalog Data AWS Glue di Panduan AWS Glue Pengembang. Sebaiknya gunakan AWS Glue crawler untuk membuat tabel Anda karena skema disimpulkan secara otomatis.
-
Bucket Amazon S3 yang berisi data pelatihan dan data benih berada di AWS wilayah yang sama dengan sumber daya Clean Rooms Anda yang lain.
-
Data pelatihan harus berisi setidaknya 100.000 pengguna unik IDs dengan setidaknya dua interaksi item masing-masing.
-
Data pelatihan harus berisi setidaknya 1 juta catatan.
-
Skema yang ditentukan dalam CreateTrainingDatasettindakan harus sejajar dengan skema yang ditentukan saat AWS Glue tabel dibuat.
-
Bidang wajib, sebagaimana didefinisikan dalam tabel yang disediakan, didefinisikan dalam CreateTrainingDatasettindakan.
Jenis bidang Jenis data yang didukung Wajib Deskripsi USER_ID string, int, kecil Ya Pengidentifikasi unik untuk setiap pengguna dalam kumpulan data. Ini harus menjadi nilai Informasi Identifikasi Non-Pribadi (PII). Ini mungkin pengenal hash atau ID pelanggan. ITEM_ID string, int, kecil Ya Pengidentifikasi unik untuk setiap item yang berinteraksi dengan pengguna. TIMESTAMP bigint, int, stempel waktu Ya Waktu ketika pengguna berinteraksi dengan item. Nilai harus dalam waktu epoch Unix dalam format detik. CATEGORICAL_FEATURE string, int, float, bigint, ganda, boolean, array Tidak Menangkap data kategoris yang terkait dengan pengguna atau item. Ini dapat mencakup hal-hal seperti jenis acara (seperti klik atau pembelian), demografi pengguna (kelompok usia, jenis kelamin - anonim), lokasi pengguna (kota, negara - anonim), kategori barang (seperti pakaian atau elektronik), atau merek barang. NUMERICAL_FEATURE ganda, mengapung, int, kecil Tidak Menangkap data numerik yang terkait dengan pengguna atau item. Ini dapat mencakup hal-hal seperti riwayat pembelian pengguna (jumlah total yang dihabiskan), harga item, berapa kali item dikunjungi, atau peringkat pengguna untuk item. -
Secara opsional, Anda dapat menyediakan hingga 10 fitur kategoris atau numerik total.
Berikut adalah contoh kumpulan data pelatihan yang valid dalam format CSV
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10