Pedoman format data massal untuk semua jenis data

Mempersiapkan data pelatihan untuk Amazon Personalize

Setelah Anda memilih kasus penggunaan domain atau resep dan mencatat persyaratan datanya, Anda siap untuk mulai menyiapkan data Anda. Amazon Personalize dapat menggunakan jenis data berikut:

Interaksi item — Di Amazon Personalize, interaksi item adalah peristiwa interaksi positif antara pengguna dan item di katalog Anda. Misalnya, pengguna menonton film, melihat daftar, atau membeli sepasang sepatu.
Item — Metadata item mungkin mencakup informasi seperti harga, SKU jenis, deskripsi, atau ketersediaan untuk setiap item dalam katalog Anda.
Pengguna — Metadata pengguna dapat mencakup informasi seperti usia, jenis kelamin, keanggotaan loyalitas, dan minat untuk setiap pengguna Anda.
Tindakan — Tindakan adalah aktivitas keterlibatan yang mungkin ingin Anda rekomendasikan kepada pelanggan Anda. Tindakan mungkin termasuk menginstal aplikasi seluler Anda, melengkapi profil keanggotaan, bergabung dengan program loyalitas Anda, atau mendaftar untuk email promosi. Untuk resep Next-Best-Action, dataset Actions diperlukan. Tidak ada resep kustom atau kasus penggunaan domain lain yang menggunakan data Tindakan.
Interaksi aksi — Interaksi aksi adalah peristiwa interaksi antara pengguna dan tindakan. Resep Next-Best-Action menggunakan data ini dan data dalam kumpulan data Tindakan Anda untuk merekomendasikan tindakan kepada pengguna Anda. Tidak ada resep kustom atau kasus penggunaan domain lain yang menggunakan data Interaksi Tindakan.

Amazon Personalize menyimpan data dalam kumpulan data, satu untuk setiap jenis data. Setiap dataset memiliki persyaratan yang berbeda. Saat mengimpor data ke kumpulan data Amazon Personalize, Anda dapat memilih untuk mengimpor rekaman secara massal, satu per satu, atau keduanya. Impor massal melibatkan pengimporan sejumlah besar catatan historis yang disimpan dalam satu atau beberapa CSV file di bucket Amazon S3.

Jika tidak memiliki data massal, Anda dapat menggunakan operasi impor individual untuk mengumpulkan data dan streaming peristiwa hingga memenuhi persyaratan pelatihan Amazon Personalize dan persyaratan data kasus atau resep penggunaan domain Anda. Untuk informasi tentang merekam acara, lihatMerekam peristiwa waktu nyata untuk memengaruhi rekomendasi. Untuk informasi tentang mengimpor catatan individual, lihatMengimpor catatan individual ke dalam kumpulan data Amazon Personalize.
Jika Anda tidak yakin memiliki cukup data atau jika Anda memiliki pertanyaan tentang kualitasnya, Anda dapat mengimpor data Anda ke kumpulan data Amazon Personalize dan menggunakan Amazon Personalize untuk menganalisisnya. Untuk informasi selengkapnya, lihat Menganalisis kualitas dan kuantitas data di Amazon Personalisasi kumpulan data.

Bagian berikut menyediakan persyaratan data untuk setiap jenis kumpulan data Amazon Personalize dan pedoman untuk menyiapkan data massal. Jika Anda tidak memiliki data massal, tinjau bagian untuk memahami data yang diperlukan dan opsional yang dapat Anda impor dengan operasi impor individual. Jika Anda memerlukan bantuan tambahan untuk memformat data, Anda dapat menggunakan Amazon SageMaker Data Wrangler (Data Wrangler) untuk menyiapkan data Anda. Untuk informasi selengkapnya, lihat Mempersiapkan dan mengimpor data massal menggunakan Amazon SageMaker Data Wrangler.

Setelah Anda selesai mempersiapkan data Anda, Anda siap untuk membuat JSON file skema. File ini memberi tahu Amazon Personalize tentang struktur data Anda. Untuk informasi selengkapnya, lihat Membuat JSON file skema untuk skema Amazon Personalize.

Topik

Pedoman format data massal untuk semua jenis data

Panduan dan persyaratan berikut dapat membantu Anda memastikan data massal Anda diformat dengan benar.

Data masukan Anda harus dalam file CSV (nilai yang dipisahkan koma).
Baris pertama CSV file Anda harus berisi header kolom Anda. Jangan lampirkan header dalam tanda kutip (“).
Kolom harus memiliki nama alfanumerik yang unik. Misalnya, Anda tidak dapat menambahkan GENRES_FIELD_1 bidang dan GENRESFIELD1 bidang.
Pastikan Anda memiliki bidang yang diperlukan untuk jenis kumpulan data Anda dan pastikan namanya selaras dengan persyaratan Amazon Personalize. Misalnya, data Item Anda mungkin memiliki kolom ITEM_IDENTIFICATION_NUMBER yang dipanggil IDs untuk setiap item Anda. Untuk menggunakan kolom ini sebagai bidang ITEM _ID, ganti nama kolom menjadi. ITEM_ID Jika Anda menggunakan Data Wrangler untuk memformat data, Anda dapat menggunakan kolom Peta untuk transformasi Amazon Personalize Data Wrangler untuk memastikan kolom Anda diberi nama dengan benar.

Untuk informasi tentang menggunakan Data Wrangler untuk menyiapkan data Anda, lihat. Mempersiapkan dan mengimpor data massal menggunakan Amazon SageMaker Data Wrangler
Setiap catatan dalam CSV file Anda harus dalam satu baris.
Amazon Personalize tidak mendukung tipe data yang kompleks seperti array dan peta.
Agar Amazon Personalisasi menggunakan data boolean saat melatih atau memfilter, gunakan nilai string "True" dan "False" atau nilai numerik 1 untuk true dan false. 0
Jika Anda menggunakan Data Wrangler untuk memformat data Anda, Anda dapat menggunakan Data Wrangler mengubah Nilai Parse sebagai Jenis untuk mengonversi tipe data.
TIMESTAMPdan CREATION_TIMESTAMP data harus dalam format UNIXepoch time. Untuk informasi selengkapnya, lihat Data stempel waktu.
Hindari menyertakan " karakter atau karakter khusus apa pun dalam ID item, ID pengguna, dan data ID tindakan.
Jika data Anda menyertakan karakter yang tidak ASCII dikodekan, CSV file Anda harus dikodekan dalam format -8. UTF
Pastikan Anda memformat data tekstual apa pun seperti yang dijelaskan dalamMetadata teks tidak terstruktur.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

HRNN-ColdStart

Data interaksi item