Mempersiapkan metadata item untuk pelatihan - Amazon Personalize

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mempersiapkan metadata item untuk pelatihan

Metadata item mencakup data numerik dan kategoris tentang item yang berinteraksi dengan pengguna Anda. Contoh metadata item termasuk stempel waktu pembuatan, harga, genre, deskripsi, dan ketersediaan. Anda mengimpor metadata tentang item Anda ke dalam kumpulan data Amazon Personalize Items.

Bergantung pada kasus penggunaan domain atau resep khusus Anda, metadata item dapat membantu Amazon Personalize merekomendasikan item yang lebih relevan kepada pengguna, memprediksi item serupa dengan lebih akurat, atau merekomendasikan segmen pengguna yang lebih bermakna. Dan itu dapat membantu Amazon Personalisasi menampilkan item baru dalam rekomendasi. Metadata item diperlukan untuk beberapa kasus penggunaan domain dan opsional untuk semua resep khusus. Untuk informasi selengkapnya, lihat persyaratan data untuk kasus penggunaan domain atau resep Anda diMencocokkan kasus penggunaan Anda dengan Amazon Personalize resource.

Saat pelatihan, Amazon Personalize tidak menggunakan data item string non-kategoris, seperti judul item atau data penulis. Namun, mengimpor data ini masih dapat meningkatkan rekomendasi. Untuk informasi selengkapnya, lihat Data string non-kategoris.

Jumlah maksimum item yang dipertimbangkan Amazon Personalize selama pelatihan tergantung pada kasus penggunaan atau resep Anda. Hanya item yang dipertimbangkan selama pelatihan yang dapat muncul dalam rekomendasi.

  • Untuk User-Personalization-v 2 atau Personalized-Ranking-v 2, jumlah maksimum item yang dipertimbangkan oleh model selama pelatihan adalah 5 juta. Item ini berasal dari kumpulan data interaksi Item dan Item.

  • Untuk semua kasus penggunaan domain dan resep khusus selain User-Personalization-v 2 dan Personalized-Ranking-v 2, jumlah maksimum item yang dipertimbangkan oleh model selama pelatihan dan menghasilkan rekomendasi adalah 750.000.

Untuk semua kasus penggunaan domain dan resep khusus, data item massal Anda harus dalam file CSV. Setiap baris dalam file harus mewakili item unik. Setelah Anda selesai mempersiapkan data Anda, Anda siap untuk membuat file JSON skema. File ini memberi tahu Amazon Personalize tentang struktur data Anda. Untuk informasi selengkapnya, lihat Membuat file JSON skema untuk skema Amazon Personalize.

Bagian berikut memberikan informasi selengkapnya tentang cara menyiapkan metadata item Anda untuk Amazon Personalize. Untuk pedoman format data massal untuk semua jenis data, lihat pedoman format data massal

Persyaratan data item

Berikut ini adalah persyaratan metadata item untuk Amazon Personalize.

Jika Anda tidak yakin memiliki cukup data atau jika Anda memiliki pertanyaan tentang kualitasnya, Anda dapat mengimpor data Anda ke kumpulan data Amazon Personalize dan menggunakan Amazon Personalize untuk menganalisisnya. Untuk informasi selengkapnya, lihat Menganalisis kualitas dan kuantitas data di Amazon Personalisasi kumpulan data.

  • Untuk semua kasus penggunaan domain dan resep khusus, Anda harus memiliki kolom ITEM_ID yang menyimpan pengenal unik untuk setiap item. Setiap item harus memiliki ID item. Itu harus string dengan panjang maksimal 256 karakter.

  • Untuk resep kustom, data Anda harus memiliki setidaknya satu string kategoris atau kolom metadata numerik. Kolom metadata item dapat menyertakan nilai kosong/nol. Kami menyarankan agar kolom-kolom ini minimal 70 persen selesai.

  • Untuk kasus penggunaan domain, kolom yang diperlukan bergantung pada domain Anda. Untuk informasi selengkapnya, lihat Persyaratan domain VIDEO_ON_DEMAND atau Persyaratan domain ECOMMERCE.

  • Jumlah maksimum kolom metadata adalah 100.

Persyaratan domain VIDEO_ON_DEMAND

Metadata item diperlukan untuk beberapa kasus penggunaan (lihatKasus penggunaan VIDEO_ON_DEMAND). Jika opsional, kami tetap menyarankan untuk mengimpor metadata item untuk mendapatkan rekomendasi yang paling relevan. Jika Anda mengimpor metadata item, data Anda harus menyertakan kolom berikut:

  • ITEM_ID

  • GENRE (kategorisstring)

  • CREATION_TIMESTAMP (dalam format waktu zaman Unix)

Berikut ini mencantumkan kolom tambahan yang direkomendasikan dan jenis yang diperlukan. nullJenis menunjukkan bahwa kolom dapat memiliki nilai yang hilang. Kami menyarankan agar kolom-kolom ini minimal 70 persen selesai. Termasuk kolom ini dapat meningkatkan rekomendasi.

  • HARGA (float)

  • DURASI (mengapung)

  • GENRE_L2 (kategoris,) string null

  • GENRE_L3 (kategoris,) string null

  • RATING_RATA-RATA (,) float null

  • PRODUCT_DESCRIPTION (tekstual,) string null

  • CONTENT_OWNER (kategorisstring,null) — Perusahaan yang memiliki video. Misalnya, nilai mungkin HBO, Paramount, dan NBC.

  • CONTENT_CLASSIFICATION (kategorisstring,null) - Peringkat konten. Misalnya, nilai mungkin G, PG, PG-13, R, NC-17, dan tidak dinilai.

Persyaratan domain ECOMMERCE

Metadata item adalah opsional untuk semua kasus penggunaan ECOMMERCE. Jika Anda memiliki data item, kami sarankan untuk mengimpornya untuk mendapatkan rekomendasi yang paling relevan. Jika Anda mengimpor metadata item, data Anda harus memiliki kolom berikut:

  • ITEM_ID

  • HARGA (float)

  • CATEGORY_L1 (kategorisstring) — Untuk informasi tentang memformat data kategoris, lihat. Metadata kategoris

Berikut ini mencantumkan kolom tambahan yang direkomendasikan dan jenis yang diperlukan. nullJenis menunjukkan bahwa kolom dapat memiliki nilai yang hilang. Kami menyarankan agar kolom-kolom ini minimal 70 persen selesai. Termasuk kolom ini dapat meningkatkan rekomendasi.

  • KATEGORI_L2 (kategoris,) string null

  • CATEGORY_L3 (kategoris,) string null

  • PRODUCT_DESCRIPTION (tekstual,) string null

  • CREATION_TIMESTAMP () float

  • AGE_GROUP (kategorisstring,null) - Kelompok usia item tersebut untuk. Nilai mungkin bayi baru lahir, bayi, anak-anak, dan orang dewasa.

  • DEWASA (kategorisstring,null) — Apakah barang dibatasi hanya untuk orang dewasa, seperti alkohol. Nilai mungkin ya atau tidak.

  • GENDER (kategorisstring,null) - Jenis kelamin item tersebut. Nilai mungkin laki-laki, perempuan, dan unisex.

Data stempel waktu pembuatan

Data stempel waktu pembuatan harus dalam format waktu epoch Unix dalam hitungan detik. Misalnya, stempel waktu Epoch dalam detik untuk tanggal 31 Juli 2020 adalah 1596238243. Untuk mengonversi tanggal ke stempel waktu epoch Unix, gunakan konverter Epoch - konverter stempel waktu Unix.

Amazon Personalize menggunakan data stempel waktu pembuatan (dalam format waktu epoch Unix, dalam hitungan detik) untuk menghitung usia item dan menyesuaikan rekomendasi yang sesuai.

Jika data stempel waktu pembuatan hilang untuk satu atau beberapa item, Amazon Personalize menyimpulkan informasi ini dari data interaksi, jika ada, dan menggunakan stempel waktu data interaksi tertua item sebagai stempel waktu pembuatan item. Jika item tidak memiliki data interaksi, stempel waktu pembuatannya ditetapkan sebagai stempel waktu interaksi terbaru dalam set pelatihan dan Amazon Personalize menganggapnya sebagai item baru.

Metadata kategoris

Dengan resep tertentu dan semua kasus penggunaan domain, Amazon Personalize menggunakan metadata kategoris, seperti genre atau warna item, saat mengidentifikasi pola dasar yang mengungkapkan item yang paling relevan bagi pengguna Anda. Anda menentukan rentang nilai Anda sendiri berdasarkan kasus penggunaan Anda. Metadata kategoris bisa dalam bahasa apa pun.

Untuk item dengan beberapa kategori, pisahkan setiap nilai dengan bilah vertikal, '|'. Misalnya, untuk bidang GENRES, data Anda untuk item mungkinAction|Crime|Biopic. Jika Anda memiliki beberapa level data kategoris dan beberapa item memiliki beberapa kategori untuk setiap level dalam hierarki, gunakan kolom terpisah untuk setiap level dan tambahkan indikator level setelah setiap nama bidang: GENRES, GENRE_L2, GENRE_L3. Ini memungkinkan Anda untuk memfilter rekomendasi berdasarkan sub-kategori, bahkan jika item termasuk dalam beberapa kategori multi-level (untuk informasi tentang membuat dan menggunakan filter lihatMemfilter rekomendasi dan segmen pengguna). Misalnya, video mungkin memiliki data berikut untuk setiap tingkat kategori:

  • GENRE: Aksi|Petualangan

  • GENRE_L2: Kejahatan|Barat

  • GENRE_L3: Biopik

Dalam contoh ini, video berada dalam hierarki aksi> kriminal> biopik dan hierarki biopik petualangan> barat>. Kami merekomendasikan hanya menggunakan hingga L3 tetapi Anda dapat menggunakan lebih banyak level jika perlu.

Nilai kategoris dapat memiliki maksimal 1000 karakter. Jika Anda memiliki item dengan nilai kategoris dengan lebih dari 1000 karakter, pekerjaan impor dataset Anda akan gagal. Kami merekomendasikan kolom kategoris memiliki paling banyak 1000 nilai yang mungkin. Mengimpor data kategoris dengan lebih banyak nilai dapat berdampak negatif pada rekomendasi. Berikut ini dapat membantu Anda mengurangi jumlah nilai yang mungkin untuk kolom kategoris:

  • Pastikan nilai mengikuti konvensi penamaan yang konsisten dan periksa kesalahan ketik. Misalnya, gunakan “Sepatu Pria” daripada memiliki campuran “Sepatu Pria”, “Sepatu Pria”, dan “Sepatu Pria”.

  • Konsolidasikan kategori serupa yang menggunakan istilah yang sedikit berbeda mengacu pada kategori dasar yang sama, seperti “Sepatu” dan “Sepatu Kets”.

  • Jika data Anda memiliki struktur hierarkis, di mana kategori yang lebih luas (seperti “Alas Kaki”) berisi subkategori yang lebih spesifik (seperti “Sepatu Pria”, “Sepatu Wanita”, “Sepatu Anak”), gunakan kolom terpisah untuk setiap level dan tambahkan indikator level setelah setiap nama bidang. Misalnya, CATEGORY_1, CATEGORY_2, dan CATEGORY_3. Ini dapat mengurangi kategori yang ambigu atau tumpang tindih.

Dengan semua resep dan domain, Anda dapat mengimpor data kategoris dan menggunakannya untuk memfilter rekomendasi berdasarkan atribut item. Untuk informasi tentang rekomendasi penyaringan, lihatMemfilter rekomendasi dan segmen pengguna.

Metadata teks tidak terstruktur

Dengan resep dan domain tertentu, Amazon Personalize dapat mengekstrak informasi yang bermakna dari metadata teks yang tidak terstruktur, seperti deskripsi produk, ulasan produk, atau sinopsis film. Amazon Personalize menggunakan teks tidak terstruktur untuk mengidentifikasi item yang relevan bagi pengguna Anda, terutama ketika item baru atau memiliki lebih sedikit data interaksi. Anda dapat menambahkan paling banyak 1 bidang tekstual. Sertakan data teks tidak terstruktur dalam kumpulan data Item Anda untuk meningkatkan rasio klik-tayang dan rasio percakapan untuk item baru di katalog Anda.

Saat Anda menyiapkan metadata teks tidak terstruktur, bungkus teks dengan tanda kutip ganda dan hapus karakter baris baru. Gunakan \ karakter untuk menghindari tanda kutip ganda atau\ karakter dalam data Anda. Amazon Personalize memotong bidang teks pada batas karakter. Pastikan bahwa informasi yang paling relevan dalam teks ada di awal bidang.

Nilai teks yang tidak terstruktur dapat memiliki paling banyak 20.000 karakter dalam semua bahasa kecuali bahasa Mandarin dan Jepang. Untuk bahasa Mandarin dan Jepang, Anda dapat memiliki paling banyak 7.000 karakter. Amazon Personalize memotong nilai yang melebihi batas karakter hingga batas karakter.

Anda dapat mengirimkan item teks tidak terstruktur dalam beberapa bahasa, tetapi teks setiap item harus hanya dalam satu bahasa. Teks dapat dalam bahasa berikut:

  • Mandarin (Sederhana)

  • Mandarin (Tradisional)

  • Bahasa Inggris

  • Bahasa Prancis

  • Bahasa Jerman

  • Bahasa Jepang

  • Bahasa Portugis

  • Bahasa Spanyol

Data numerik

Amazon Personalize dapat menggunakan metadata item numerik, seperti harga atau durasi video, untuk menghasilkan rekomendasi yang lebih relevan bagi pengguna. Data numerik ini dapat direpresentasikan sebagai bilangan bulat atau nilai desimal.

Jika Anda menggunakan Personalisasi Pengguna atau resep Peringkat yang Dipersonalisasi khusus, Anda dapat mengoptimalkan solusi Amazon Personalisasi untuk tujuan terkait metadata Item selain relevansi maksimum, seperti memaksimalkan pendapatan. Saat mengonfigurasi solusi, Anda memilih kolom metadata numerik di kumpulan data Item yang terkait dengan tujuan Anda. Misalnya, Anda dapat memilih kolom VIDEO_LENGTH untuk memaksimalkan menit streaming atau kolom PRICE untuk memaksimalkan pendapatan.

Untuk informasi selengkapnya, lihat Mengoptimalkan solusi untuk tujuan tambahan.

Data string non-kategoris

Kecuali untuk item IDs, Amazon Personalize tidak menggunakan data string non-tekstual non-kategoris saat pelatihan, seperti judul item atau data penulis. Namun, Amazon Personalize dapat menggunakannya dengan fitur-fitur berikut. Nilai non-kategoris dapat memiliki maksimum 1000 karakter.

  • Amazon Personalize dapat menyertakan metadata item dalam rekomendasi, termasuk nilai string non-kategoris. Anda dapat menggunakan metadata untuk memperkaya rekomendasi di antarmuka pengguna, seperti menambahkan nama sutradara ke korsel rekomendasi film. Untuk informasi selengkapnya, lihat Metadata item dalam rekomendasi.

  • Jika Anda menggunakanBarang Serupa, Anda dapat menghasilkan rekomendasi batch dengan tema. Saat Anda membuat rekomendasi batch dengan tema, Anda harus menentukan kolom nama item dalam pekerjaan inferensi batch. Untuk informasi selengkapnya, lihat Rekomendasi Batch dengan tema dari Content Generator.

  • Anda dapat membuat filter untuk menyertakan atau menghapus item dari rekomendasi berdasarkan data string non-kategoris. Untuk informasi lebih lanjut tentang filter, lihat Memfilter rekomendasi dan segmen pengguna.

Contoh metadata item

Beberapa baris pertama metadata film dalam file CSV mungkin terlihat seperti berikut.

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...

ITEM_IDKolom diperlukan dan menyimpan pengidentifikasi unik untuk setiap item individu. GENREKolom menyimpan metadata kategoris untuk setiap film dan DESCRIPTION kolom adalah metadata tekstual tidak terstruktur. CREATION_TIMESTAMPKolom menyimpan setiap waktu pembuatan item dalam format waktu epoch Unix dalam hitungan detik.

Setelah Anda selesai mempersiapkan data Anda, Anda siap untuk membuat file JSON skema. File ini memberi tahu Amazon Personalize tentang struktur data Anda. Untuk informasi selengkapnya, lihat Membuat file JSON skema untuk skema Amazon Personalize. Seperti inilah tampilan file JSON skema untuk data sampel di atas.

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }