Mempersiapkan data interaksi item untuk pelatihan - Amazon Personalize

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mempersiapkan data interaksi item untuk pelatihan

Interaksi item adalah peristiwa interaksi positif antara pengguna dan item dalam katalog Anda. Misalnya, pengguna menonton film, melihat daftar, atau membeli sepasang sepatu. Anda mengimpor data tentang interaksi pengguna dengan item Anda ke dalam kumpulan data interaksi Item. Anda dapat merekam beberapa jenis acara, seperti klik, tonton, atau pembelian.

Misalnya, jika pengguna mengklik item tertentu dan kemudian menyukai item tersebut, Anda dapat meminta Amazon Personalisasi menggunakan peristiwa ini sebagai data pelatihan. Untuk setiap peristiwa, Anda akan merekam ID pengguna, ID item, stempel waktu (dalam format waktu Unix time epoch), dan jenis acara (klik dan suka). Anda kemudian akan menambahkan kedua peristiwa interaksi item ke kumpulan data interaksi Item.

Untuk semua kasus penggunaan domain dan resep khusus, data interaksi item massal Anda harus dalam CSV file. Setiap baris harus mewakili interaksi tunggal antara pengguna dan item. Setelah Anda selesai mempersiapkan data Anda, Anda siap untuk membuat JSON file skema. File ini memberi tahu Amazon Personalize tentang struktur data Anda. Untuk informasi selengkapnya, lihat Membuat JSON file skema untuk skema Amazon Personalize.

Bagian berikut memberikan informasi selengkapnya tentang cara menyiapkan data interaksi item Anda untuk Amazon Personalize. Untuk pedoman format data massal untuk semua jenis data, lihat pedoman format data massal

Persyaratan data interaksi item

Bagian berikut mencantumkan persyaratan data interaksi item untuk Amazon Personalize. Untuk kuota tambahan, lihatTitik akhir dan kuota Amazon Personalize.

Persyaratan pelatihan minimum

Untuk semua kasus penggunaan domain dan resep khusus, data interaksi item massal Anda harus memiliki yang berikut:

  • Minimal 1000 catatan interaksi item dari pengguna yang berinteraksi dengan item di katalog Anda. Interaksi ini dapat berasal dari impor massal, atau acara streaming, atau keduanya.

  • Minimal 25 pengguna unik IDs dengan setidaknya dua interaksi item untuk masing-masing.

Untuk rekomendasi kualitas, kami sarankan Anda memiliki setidaknya 50.000 interaksi item dari setidaknya 1.000 pengguna dengan dua atau lebih interaksi item masing-masing.

Untuk membuat pemberi rekomendasi atau solusi khusus, Anda harus setidaknya membuat kumpulan data interaksi Item.

Persyaratan kolom

Data interaksi item Anda harus memiliki kolom berikut.

  • USER_ID — Pengenal unik pengguna yang berinteraksi dengan item. Setiap peristiwa harus memiliki USER _ID. Itu harus string dengan panjang maksimal 256 karakter.

  • ITEM_ID — Pengidentifikasi unik dari item yang berinteraksi dengan pengguna. Setiap acara harus memiliki ID item. Itu harus string dengan panjang maksimal 256 karakter.

  • TIMESTAMP— Waktu peristiwa terjadi (dalam format waktu zaman Unix dalam hitungan detik). Setiap interaksi harus memilikiTIMESTAMP. Untuk informasi selengkapnya, lihat Data stempel waktu.

  • EVENT_ TYPE — Sifat acara interaksi item, seperti klik, tonton, atau pembelian. Untuk pemberi rekomendasi domain, Anda harus memiliki kolom tipe acara dan setiap interaksi harus memiliki jenis acara. Untuk semua resep khusus, TYPE kolom EVENT _ direkomendasikan tetapi opsional. Jika Anda menambahkannya, setiap acara harus memiliki jenis acara. Untuk informasi selengkapnya, lihat Jenis peristiwa dan data nilai acara.

Anda bebas menambahkan kolom kustom tambahan tergantung pada kasus penggunaan dan data Anda. Jumlah maksimum kolom metadata opsional adalah 5. Kolom ini dapat mencakup nilai kosong/null. Kami menyarankan agar kolom ini minimal 70 persen selesai.

Data stempel waktu

Data stempel waktu harus dalam format waktu epoch Unix dalam hitungan detik. Misalnya, stempel waktu Epoch dalam detik untuk tanggal 31 Juli 2020 adalah 1596238243. Untuk mengonversi tanggal ke stempel waktu epoch Unix, gunakan konverter Epoch - konverter stempel waktu Unix.

Amazon Personalize menggunakan data stempel waktu untuk menghitung kebaruan dan mengidentifikasi pola berbasis waktu apa pun. Ini membantu Amazon Personalisasi menjaga rekomendasi up-to-date dengan preferensi pengguna yang terus berkembang.

Jenis peristiwa dan data nilai acara

Kumpulan data interaksi Item dapat menyimpan jenis peristiwa dan data nilai peristiwa untuk setiap interaksi. Hanya sumber daya khusus yang menggunakan data nilai peristiwa.

Data tipe acara

Jenis peristiwa interaksi item memberikan konteks tentang sifat dan signifikansinya. Contoh jenis acara mungkin klik, tonton, atau beli. Amazon Personalize menggunakan data tipe peristiwa, seperti data klik atau beli, untuk mengidentifikasi maksud dan minat pengguna. Jumlah maksimum jenis peristiwa berbeda yang dikombinasikan dengan jumlah total kolom metadata opsional dalam kumpulan data interaksi Item adalah 10.

Untuk pemberi rekomendasi domain, Anda harus memiliki kolom tipe acara dan setiap interaksi harus memiliki jenis acara. Untuk semua resep khusus, TYPE kolom EVENT _ direkomendasikan tetapi opsional. Jika Anda menambahkannya, setiap acara harus memiliki jenis acara.

Jika Anda membuat sumber daya khusus, Anda dapat memilih acara yang digunakan untuk pelatihan menurut jenis acara. Jika kumpulan data Anda memiliki beberapa jenis peristiwa di TYPE kolom EVENT _, dan Anda tidak memberikan jenis peristiwa saat mengonfigurasi solusi khusus, Amazon Personalize menggunakan semua data interaksi item untuk pelatihan dengan bobot yang sama, terlepas dari jenisnya. Untuk informasi selengkapnya, lihat Memilih data interaksi item yang digunakan untuk pelatihan.

Kasus penggunaan berikut memiliki persyaratan jenis acara tertentu:

VIDEOKasus penggunaan DEMAND domain _ON_

  • Karena Anda menonton X membutuhkan minimal 1000 Watch acara.

  • Paling populer membutuhkan minimal 1000 Watch acara.

ECOMMERCEkasus penggunaan domain

  • Paling banyak dilihat membutuhkan minimal 1000 View acara.

  • Penjual terbaik membutuhkan minimal 1000 Purchase acara.

Jenis peristiwa positif dan negatif

Amazon Personalize mengasumsikan interaksi apa pun adalah interaksi positif. Interaksi dengan jenis peristiwa negatif, seperti tidak suka, tidak akan selalu mencegah item muncul di rekomendasi future pengguna.

Berikut ini adalah cara untuk memiliki peristiwa negatif dan rekomendasi pengaruh ketidaktertarikan pengguna:

  • Untuk semua kasus penggunaan domain dan Personalisasi Pengguna resepnya, Amazon Personalize dapat menggunakan data tayangan. Ketika item muncul di data tayangan dan pengguna tidak memilihnya, item tersebut cenderung tidak muncul dalam rekomendasi. Untuk informasi selengkapnya, lihat Data tayangan.

  • Jika Anda menggunakan sumber daya khusus dan mengimpor jenis peristiwa positif dan negatif, Anda dapat melatih hanya pada jenis peristiwa positif dan kemudian menyaring item yang berinteraksi dengan pengguna secara negatif. Untuk informasi selengkapnya, silakan lihat Memilih data interaksi item yang digunakan untuk pelatihan dan Memfilter rekomendasi dan segmen pengguna.

Data nilai acara (sumber daya khusus)

Data nilai peristiwa mungkin persentase film yang ditonton pengguna atau peringkat dari 10. Jika Anda membuat solusi khusus, Anda dapat memilih catatan yang digunakan untuk pelatihan berdasarkan data di VALUE kolom EVENT EVENT _ TYPE dan _. Dengan pemberi rekomendasi domain, Amazon Personalize tidak menggunakan data nilai peristiwa dan Anda tidak dapat memfilter peristiwa sebelum pelatihan.

Untuk memilih rekaman berdasarkan jenis dan nilai, rekam jenis peristiwa dan data nilai peristiwa untuk peristiwa. Tidak semua acara harus memiliki nilai acara. Nilai yang Anda pilih untuk setiap acara tergantung pada data apa yang ingin Anda kecualikan dan jenis acara apa yang Anda rekam. Misalnya, Anda mungkin mencocokkan aktivitas pengguna, seperti persentase video yang ditonton pengguna untuk jenis acara tontonan.

Saat mengonfigurasi solusi, Anda menetapkan nilai tertentu sebagai ambang batas untuk mengecualikan catatan dari pelatihan. Misalnya, jika VALUE data EVENT _ untuk acara dengan EVENT _ TYPE jam tangan adalah persentase video yang ditonton pengguna, jika Anda menetapkan ambang nilai acara menjadi 0,5, dan jenis acara yang akan ditonton, Amazon Personalize melatih model hanya menggunakan menonton peristiwa interaksi dengan EVENT _ VALUE lebih besar dari atau sama dengan 0,5.

Untuk informasi selengkapnya, silakan lihat Memilih data interaksi item yang digunakan untuk pelatihan

Metadata kontekstual

Dengan resep dan kasus penggunaan pemberi rekomendasi tertentu, Amazon Personalize dapat menggunakan metadata kontekstual saat mengidentifikasi pola dasar yang mengungkapkan item yang paling relevan untuk pengguna Anda. Metadata kontekstual adalah data interaksi yang Anda kumpulkan di lingkungan pengguna pada saat kejadian, seperti lokasi atau jenis perangkat mereka. Anda juga dapat menentukan konteks pengguna ketika Anda mendapatkan rekomendasi untuk pengguna.

Sertakan metadata kontekstual untuk memberikan pengalaman yang lebih personal bagi pengguna Anda dan kurangi fase awal dingin untuk pengguna baru. Fase cold-start adalah ketika rekomendasi kurang relevan karena kurangnya data pengguna historis.

Misalnya, jika CSV file interaksi item Anda menyertakan TYPE kolom DEVICE _ dengan tablet dan phone nilai, Amazon Personalize dapat mempelajari cara pelanggan berbelanja secara berbeda dengan perangkat yang berbeda. Ketika Anda mendapatkan rekomendasi untuk pengguna, Anda dapat menentukan perangkat mereka dan rekomendasi akan lebih relevan, bahkan jika pengguna tidak memiliki riwayat interaksi.

Berikut ini menunjukkan bagaimana Anda akan memformat CSV file interaksi item dengan TYPE kolom DEVICE _ sebagai metadata kontekstual.

ITEM_ID,USER_ID,TIMESTAMP,DEVICE_TYPE,EVENT_TYPE shoe12345,12,1428624000,Tablet,CLICK shoe12346,12,1420416000,Tablet,CLICK shoe12347,12,1410652800,Tablet,BUY shoe4444,13,1409961600,Phone,CLICK shoe4445,13,1402876800,Phone,BUY shoe4336,13,1402185600,Phone,CLICK .....

Untuk grup kumpulan data Domain, kasus penggunaan pemberi rekomendasi berikut dapat menggunakan metadata kontekstual:

Untuk sumber daya khusus, resep yang menggunakan metadata kontekstual mencakup yang berikut:

Untuk informasi tentang menyertakan konteks saat Anda mendapatkan rekomendasi, lihatMeningkatkan relevansi rekomendasi dengan metadata kontekstual. Untuk contoh ujung ke ujung yang menunjukkan cara menggunakan metadata kontekstual, lihat posting Blog AWS Machine Learning berikut: Meningkatkan relevansi rekomendasi Amazon Personalize Anda dengan memanfaatkan informasi kontekstual.

Data tayangan

Tayangan adalah daftar item yang terlihat oleh pengguna saat berinteraksi dengan (misalnya, diklik atau ditonton) item tertentu. Jika Anda menggunakan kasus penggunaan domain yang menyediakan personalisasi atau Personalisasi Pengguna resep, Amazon Personalize dapat menggunakan data tayangan untuk memandu eksplorasi.

Dengan eksplorasi, rekomendasi mencakup beberapa item atau tindakan yang biasanya cenderung tidak direkomendasikan bagi pengguna, seperti item atau tindakan baru, item atau tindakan dengan sedikit interaksi, atau item atau tindakan yang kurang relevan bagi pengguna berdasarkan perilaku mereka sebelumnya. Semakin sering suatu item muncul dalam data tayangan, semakin kecil kemungkinan Amazon Personalize menyertakan item dalam eksplorasi.

Saat Anda membuat pemberi rekomendasi atau solusi, Amazon Personalize selalu mengecualikan data tayangan dari pelatihan. Ini karena Amazon Personalize tidak melatih model Anda dengan data tayangan. Sebaliknya, ia menggunakannya ketika Anda mendapatkan rekomendasi untuk memandu eksplorasi bagi pengguna.

Nilai tayangan dapat memiliki paling banyak 1000 karakter (termasuk karakter batang vertikal). Untuk grup kumpulan data Domain, kasus penggunaan pemberi rekomendasi berikut dapat menggunakan data tayangan:

Untuk informasi lebih lanjut tentang eksplorasi lihatEksplorasi. Amazon Personalize dapat memodelkan dua jenis tayangan: Tayangan implisit dan. Tayangan eksplisit

Tayangan eksplisit

Tayangan eksplisit adalah tayangan yang Anda rekam dan kirim secara manual ke Amazon Personalisasi. Gunakan tayangan eksplisit untuk memanipulasi hasil dari Amazon Personalize. Urutan item tidak berdampak.

Misalnya, Anda mungkin memiliki aplikasi belanja yang memberikan rekomendasi untuk sepatu. Jika Anda hanya merekomendasikan sepatu yang saat ini tersedia, Anda dapat menentukan item ini menggunakan tayangan eksplisit. Alur kerja rekomendasi Anda menggunakan tayangan eksplisit mungkin sebagai berikut:

  1. Anda meminta rekomendasi untuk salah satu pengguna Anda menggunakan Amazon Personalize GetRecommendationsAPI.

  2. Amazon Personalize menghasilkan rekomendasi untuk pengguna yang menggunakan model Anda (versi solusi) dan mengembalikannya dalam respons. API

  3. Anda hanya menunjukkan kepada pengguna sepatu yang direkomendasikan yang tersedia.

  4. Untuk impor data inkremental real-time, ketika pengguna berinteraksi dengan (misalnya, mengklik) sepasang sepatu, Anda mencatat pilihan dalam panggilan ke PutEvents API dan mencantumkan item yang direkomendasikan yang tersedia dalam parameter. impression Untuk contoh kode lihatMerekam peristiwa interaksi item dengan data tayangan.

    Untuk mengimpor tayangan dalam data interaksi item historis, Anda dapat mencantumkan tayangan eksplisit di file csv Anda dan memisahkan setiap item dengan karakter '| '. Karakter batang vertikal dihitung menuju batas 1000 karakter. Sebagai contoh lihatMemformat tayangan eksplisit.

  5. Amazon Personalize menggunakan data tayangan untuk memandu eksplorasi, di mana rekomendasi future menyertakan sepatu baru dengan data interaksi atau relevansi yang lebih sedikit.

Memformat tayangan eksplisit

Untuk menyertakan tayangan eksplisit dalam CSV file Anda, tambahkan IMPRESSION kolom. Untuk setiap interaksi item, tambahkan daftar itemIds dipisahkan dengan bilah vertikal, '|', karakter. Karakter batang vertikal dihitung menuju batas 1000 karakter untuk data tayangan. Jika Anda menyertakan tayangan eksplisit dalam PutEvents operasi, Anda menentukan item dalam array string.

Berikut ini adalah kutipan singkat dari CSV file yang menyertakan tayangan eksplisit di kolom. IMPRESSION

EVENT_TYPE IMPRESSION ITEM_ID TIMESTAMP USER_ID
klik

73|70|17 |95|96

73

1586731606

USER_1
klik

35 | 82 | 78 | 57 | 20 | 63 | 1 | 90 | 76 | 75 | 49 | 71 | 26 | 24 | 25 | 6

35

1586735164

USER_2
... ... ... ... ...

Aplikasi menunjukkan USER_1 item pengguna73,70, 1795,, 96 dan pengguna akhirnya memilih item73. Saat Anda membuat versi solusi baru berdasarkan data ini, item70,17,95, dan 96 akan lebih jarang direkomendasikan kepada penggunaUSER_1.

Tayangan implisit

Tayangan implisit adalah rekomendasi, diambil dari Amazon Personalize, yang Anda tunjukkan kepada pengguna. CSVFile Anda tidak perlu menyertakan IMPRESSION atau kolom RECOMMENDATION _ID untuk menggunakan tayangan implisit. Sebagai gantinya, Anda menyertakan RecommendationId (dikembalikan oleh GetRecommendations dan GetPersonalizedRanking operasi) dalam PutEvents permintaan. Amazon Personalize memperoleh tayangan implisit berdasarkan data rekomendasi Anda.

Misalnya, Anda mungkin memiliki aplikasi yang memberikan rekomendasi untuk streaming video. Alur kerja rekomendasi Anda menggunakan tayangan implisit mungkin sebagai berikut:

  1. Anda meminta rekomendasi video untuk salah satu pengguna Anda menggunakan operasi Amazon Personalize GetRecommendationsAPI.

  2. Amazon Personalize menghasilkan rekomendasi untuk pengguna yang menggunakan model Anda (versi solusi) dan mengembalikannya dengan a recommendationId dalam respons. API

  3. Anda menunjukkan rekomendasi video kepada pengguna Anda di aplikasi Anda.

  4. Ketika pengguna Anda berinteraksi dengan (misalnya, mengklik) video, rekam pilihan dalam panggilan ke PutEvents API dan sertakan recommendationId sebagai parameter. Untuk contoh kode lihatMerekam peristiwa interaksi item dengan data tayangan.

  5. Amazon Personalize menggunakan data tayangan recommendationId untuk memperoleh data tayangan dari rekomendasi video sebelumnya, dan kemudian menggunakan data tayangan untuk memandu eksplorasi, di mana rekomendasi future menyertakan video baru dengan data interaksi atau relevansi yang lebih sedikit.

    Untuk informasi selengkapnya tentang merekam peristiwa dengan data tayangan implisit, lihatMerekam peristiwa interaksi item dengan data tayangan.

Contoh data interaksi

Data interaksi berikut mewakili aktivitas pengguna historis dari situs web video streaming. Anda dapat menggunakan data untuk melatih model yang menyediakan rekomendasi film berdasarkan data interaksi pengguna. Perhatikan bahwa beberapa nilai untuk EVENT _ VALUE adalah nol.

USER_ID,ITEM_ID,EVENT_TYPE,EVENT_VALUE,TIMESTAMP 196,242,watch,.50,881250949 186,302,watch,.75,891717742 22,377,click,,878887116 244,51,click,,880606923 166,346,watch,.50,886397596 298,474,watch,.25,884182806 115,265,click,,881171488 253,465,watch,.50,891628467 305,451,watch,.75,886324817

Amazon Personalize membutuhkan kolomUSER_ID,ITEM_ID, danTIMESTAMP. USER_IDadalah pengenal untuk pengguna aplikasi Anda. ITEM_IDadalah pengenal untuk sebuah film. EVENT_TYPEdan EVENT_VALUE merupakan pengidentifikasi untuk interaksi pengguna. Dalam data sampel, peristiwa adalah watch dan click peristiwa dan nilainya adalah persentase video yang ditonton pengguna. TIMESTAMPIni mewakili waktu zaman Unix saat pembelian film berlangsung.

Setelah Anda selesai mempersiapkan data Anda, Anda siap untuk membuat JSON file skema. File ini memberi tahu Amazon Personalize tentang struktur data Anda. Untuk informasi selengkapnya, lihat Membuat JSON file skema untuk skema Amazon Personalize. Seperti inilah tampilan JSON file skema untuk data sampel.

{ "type": "record", "name": "Interactions", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "ITEM_ID", "type": "string" }, { "name": "EVENT_TYPE", "type": "string" }, { "name": "EVENT_VALUE", "type": "float" }, { "name": "TIMESTAMP", "type": "long" } ], "version": "1.0" }