Preparazione dei metadati degli articoli per la formazione - Amazon Personalize

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione dei metadati degli articoli per la formazione

I metadati degli elementi includono dati numerici e categorici sugli elementi con cui gli utenti interagiscono. Esempi di metadati degli articoli includono data e ora di creazione, prezzo, genere, descrizione e disponibilità. Importi i metadati sui tuoi articoli in un set di dati Amazon Personalize Items.

A seconda del caso d'uso del dominio o della ricetta personalizzata, i metadati degli articoli possono aiutare Amazon Personalize a consigliare articoli più pertinenti agli utenti, prevedere con maggiore precisione articoli simili o consigliare segmenti di utenti più significativi. Inoltre, può aiutare Amazon Personalize a inserire nuovi elementi nei consigli. I metadati degli articoli sono obbligatori per alcuni casi d'uso del dominio e facoltativi per tutte le ricette personalizzate. Per ulteriori informazioni, consulta i requisiti in materia di dati per il caso d'uso o la ricetta del dominio inAdattamento del tuo caso d'uso alle risorse di Amazon Personalize.

Durante la formazione, Amazon Personalize non utilizza dati di elementi di stringa non categoriali, come titoli degli articoli o dati dell'autore. Tuttavia, l'importazione di questi dati può comunque migliorare i consigli. Per ulteriori informazioni, consulta Dati di stringa non categoriali.

Il numero massimo di articoli che Amazon Personalize considera durante la formazione dipende dal caso d'uso o dalla ricetta. Nei consigli possono comparire solo gli elementi presi in considerazione durante l'allenamento.

  • Per User-Personalization-v2 o Personalized-Ranking-v2, il numero massimo di elementi considerati da un modello durante la formazione è 5 milioni. Questi elementi provengono sia dal set di dati Items che Item Interactions.

  • Per tutti i casi d'uso del dominio e le ricette personalizzate diverse da User-Personalization-v2 e Personalized-Ranking-v2, il numero massimo di elementi considerati da un modello durante l'addestramento e la generazione dei consigli è 750.000.

Per tutti i casi d'uso del dominio e le ricette personalizzate, i dati relativi agli articoli in blocco devono essere contenuti in un file. CSV Ogni riga del file deve rappresentare un elemento unico. Dopo aver completato la preparazione dei dati, sei pronto per creare un JSON file di schema. Questo file indica ad Amazon Personalize la struttura dei tuoi dati. Per ulteriori informazioni, consulta Creazione di JSON file di schema per schemi Amazon Personalize.

Le seguenti sezioni forniscono ulteriori informazioni su come preparare i metadati degli articoli per Amazon Personalize. Per le linee guida sul formato dei dati in blocco per tutti i tipi di dati, consulta le linee guida sul formato dei dati in blocco

Requisiti in materia di dati

Di seguito sono riportati i requisiti relativi ai metadati degli articoli per Amazon Personalize.

Se non sei sicuro di disporre di dati sufficienti o se hai domande sulla loro qualità, puoi importare i dati in un set di dati Amazon Personalize e utilizzare Amazon Personalize per analizzarli. Per ulteriori informazioni, consulta Analisi della qualità e della quantità di dati nei set di dati di Amazon Personalize.

  • Per tutti i casi d'uso del dominio e le ricette personalizzate, devi disporre di una colonna ITEM _ID che memorizzi l'identificatore univoco di ogni articolo. Ogni articolo deve avere un ID dell'articolo. Deve essere un string con una lunghezza massima di 256 caratteri.

  • Per le ricette personalizzate, i dati devono avere almeno una stringa categorica o una colonna di metadati numerici. Le colonne di metadati degli elementi possono includere valori vuoti/nulli. È consigliabile che queste colonne siano complete almeno al 70 percento.

  • Per i casi d'uso del dominio, le colonne obbligatorie dipendono dal dominio. Per ulteriori informazioni, consulta VIDEORequisiti del dominio _ON_ DEMAND o ECOMMERCErequisiti del dominio.

  • Il numero massimo di colonne di metadati è 100.

VIDEORequisiti del dominio _ON_ DEMAND

I metadati di un elemento sono necessari per alcuni casi d'uso (vedi). Casi d'uso VIDEO_ON_DEMAND Se facoltativo, consigliamo comunque di importare i metadati degli elementi per ottenere i consigli più pertinenti. Se importi i metadati degli articoli, i dati devono includere le seguenti colonne:

  • ITEM_ID

  • GENRES(stringcategorico)

  • CREATION_ TIMESTAMP (nel formato orario Unix Epoch)

Di seguito sono elencate le colonne aggiuntive consigliate e i relativi tipi richiesti. Il null tipo indica che la colonna può avere valori mancanti. È consigliabile che queste colonne siano complete almeno al 70 percento. L'inclusione di queste colonne può migliorare i consigli.

  • PRICE(galleggiante)

  • DURATION(galleggia)

  • GENRE_L2 (categorico,) string null

  • GENRE_L3 (categorico,) string null

  • AVERAGE_RATING (float, null)

  • PRODUCT_ DESCRIPTION (testuale,) string null

  • CONTENT_ OWNER (categoricostring,null) — La società proprietaria del video. Ad esempio, i valori potrebbero essereHBO, Paramount e. NBC

  • CONTENT_ CLASSIFICATION (categoricostring,null) — La classificazione del contenuto. Ad esempio, i valori potrebbero essere G, PG, PG-13, R, NC-17 e non classificati.

ECOMMERCErequisiti del dominio

I metadati degli elementi sono facoltativi per tutti i casi ECOMMERCE d'uso. Se disponi di dati sugli articoli, ti consigliamo di importarli per ottenere i consigli più pertinenti. Se importi i metadati degli articoli, i dati devono avere le seguenti colonne:

  • ITEM_ID

  • PRICE (float)

  • CATEGORY_L1 (categoricostring): per informazioni sulla formattazione dei dati categoriali, vedere. Metadati categoriali

Di seguito sono elencate le colonne consigliate aggiuntive e i relativi tipi obbligatori. Il null tipo indica che la colonna può avere valori mancanti. È consigliabile che queste colonne siano complete almeno al 70 percento. L'inclusione di queste colonne può migliorare i consigli.

  • CATEGORY_L2 (stringcategorico,) null

  • CATEGORY_L3 (categorico,) string null

  • PRODUCT_ DESCRIPTION (testuale,) string null

  • CREATION_TIMESTAMP (float)

  • AGE_ GROUP (categoricostring,null) — La fascia di età a cui è destinato l'articolo. I valori possono essere neonati, lattanti, bambini e adulti.

  • ADULT(categoricostring,null) — Indica se l'articolo è riservato ai soli adulti, ad esempio agli alcolici. I valori possono essere sì o no.

  • GENDER(categoricostring,null) — Il sesso a cui è destinato l'articolo. I valori possono essere maschili, femminili e unisex.

Dati relativi al timestamp di creazione

I dati del timestamp di creazione devono essere in formato Unix epoch Time in secondi. Ad esempio, il timestamp Epoch in secondi per la data 31 luglio 2020 è 1596238243. Per convertire le date in timestamp di epoca Unix, usa un convertitore Epoch - Convertitore di timestamp Unix.

Amazon Personalize utilizza i dati di data e ora di creazione (in formato Unix epoch time, in secondi) per calcolare l'età di un articolo e modificare i consigli di conseguenza.

Se mancano i dati relativi al timestamp di creazione per uno o più articoli, Amazon Personalize deduce queste informazioni dai dati di interazione, se presenti, e utilizza il timestamp dei dati di interazione più vecchi dell'articolo come timestamp di creazione dell'articolo. Se un elemento non ha dati di interazione, il relativo timestamp di creazione viene impostato come il timestamp dell'ultima interazione nel set di formazione e Amazon Personalize lo considera un nuovo elemento.

Metadati categoriali

Con determinate ricette e tutti i casi d'uso del dominio, Amazon Personalize utilizza metadati categoriali, come il genere o il colore di un articolo, per identificare i modelli sottostanti che rivelano gli articoli più pertinenti per i tuoi utenti. Definisci il tuo intervallo di valori in base al tuo caso d'uso. I metadati categoriali possono essere in qualsiasi lingua.

Per gli elementi con più categorie, separa ogni valore con la barra verticale '|'. Ad esempio, per un GENRES campo, i dati per un elemento potrebbero essere. Action|Crime|Biopic Se disponi di più livelli di dati categoriali e alcuni elementi hanno più categorie per ogni livello della gerarchia, usa una colonna separata per ogni livello e aggiungi un indicatore di livello dopo ogni nome di campo:GENRES, GENRE _L2, _L3. GENRE Ciò consente di filtrare i consigli in base alle sottocategorie, anche se un elemento appartiene a più categorie a più livelli (per informazioni sulla creazione e l'utilizzo dei filtri, vedere). Suggerimenti di filtraggio e segmenti di utenti Ad esempio, un video potrebbe contenere i seguenti dati per ogni livello di categoria:

  • GENRES: Azione|Avventura

  • GENRE_L2: Crime|Western

  • GENRE_L3: Film biografico

In questo esempio, il video si trova nella gerarchia azione > crimine > biopic e nella gerarchia avventura > western > biopic. Si consiglia di utilizzare solo fino a L3, ma è possibile utilizzare più livelli se necessario.

I valori categoriali possono contenere un massimo di 1000 caratteri. Se hai un elemento con un valore categorico con più di 1000 caratteri, il processo di importazione del set di dati avrà esito negativo. Consigliamo che le colonne categoriali abbiano al massimo 1000 valori possibili. L'importazione di dati categoriali con più valori può influire negativamente sui consigli. Quanto segue può aiutarti a ridurre il numero di valori possibili per una colonna categorica:

  • Assicurati che i valori seguano una convenzione di denominazione coerente e verifica la presenza di errori di battitura. Ad esempio, usa «Scarpe da uomo» anziché avere un mix di «Scarpe da uomo», «Scarpe da uomo» e «Calzature da uomo».

  • Consolida categorie simili che utilizzano termini leggermente diversi che si riferiscono alla stessa categoria sottostante, come «Scarpe» e «scarpe da ginnastica».

  • Se i tuoi dati hanno una struttura gerarchica, in cui le categorie più ampie (come «Calzature») contengono sottocategorie più specifiche (come «Scarpe da uomo», «Scarpe da donna», «Scarpe per bambini»), utilizza una colonna separata per ogni livello e aggiungi un indicatore di livello dopo ogni nome di campo. Ad esempio, CATEGORY _1, _2 e _3. CATEGORY CATEGORY In questo modo è possibile ridurre le categorie ambigue o sovrapposte.

Con tutte le ricette e i domini, puoi importare dati categoriali e utilizzarli per filtrare i consigli in base agli attributi di un articolo. Per informazioni sui consigli di filtraggio, consulta. Suggerimenti di filtraggio e segmenti di utenti

Metadati di testo non strutturati

Con determinate ricette e domini, Amazon Personalize può estrarre informazioni significative da metadati di testo non strutturati, come descrizioni dei prodotti, recensioni di prodotti o sinossi di film. Amazon Personalize utilizza testo non strutturato per identificare gli elementi pertinenti per gli utenti, in particolare quando gli articoli sono nuovi o hanno meno dati sulle interazioni. Puoi aggiungere al massimo 1 campo testuale. Includi dati di testo non strutturati nel set di dati Items per aumentare le percentuali di clic e le percentuali di conversazione per i nuovi articoli del catalogo.

Quando prepari i metadati di testo non strutturati, raccogli il testo tra virgolette doppie e rimuovi eventuali nuovi caratteri di riga. Usa il \ carattere per evitare le virgolette doppie o i caratteri\ nei tuoi dati. Amazon Personalize tronca i campi di testo al limite di caratteri. Assicurati che le informazioni più pertinenti nel testo si trovino all'inizio del campo.

I valori di testo non strutturati possono contenere al massimo 20.000 caratteri in tutte le lingue tranne il cinese e il giapponese. Per il cinese e il giapponese, puoi avere un massimo di 7.000 caratteri. Amazon Personalize tronca i valori che superano il limite di caratteri al limite di caratteri.

Puoi inviare elementi di testo non strutturati in più lingue, ma il testo di ogni elemento deve essere in una sola lingua. Il testo può essere nelle seguenti lingue:

  • Cinese (semplificato)

  • Cinese (tradizionale)

  • Italiano

  • Francese

  • Tedesco

  • Giapponese

  • Portoghese

  • Spagnolo

Dati numerici

Amazon Personalize può utilizzare i metadati numerici degli articoli, come il prezzo o la durata del video, per generare consigli più pertinenti per gli utenti. Questi dati numerici possono essere rappresentati come numeri interi o valori decimali.

Se utilizzi le ricette Personalizzazione dell'utente o le ricette Personalized-Ranking personalizzate, puoi ottimizzare una soluzione Amazon Personalize per un obiettivo relativo ai metadati degli articoli oltre alla massima pertinenza, come la massimizzazione delle entrate. Quando configuri la tua soluzione, scegli la colonna di metadati numerici nel set di dati Items correlata al tuo obiettivo. Ad esempio, puoi scegliere una LENGTH colonna VIDEO _ per massimizzare i minuti di streaming o una PRICE colonna per massimizzare le entrate.

Per ulteriori informazioni, consulta Ottimizzazione di una soluzione per un obiettivo aggiuntivo.

Dati di stringa non categoriali

Ad eccezione dell'articoloIDs, Amazon Personalize non utilizza dati di stringhe non testuali non categoriali durante la formazione, come i titoli degli articoli o i dati degli autori. Tuttavia, Amazon Personalize può utilizzarlo con le seguenti funzionalità. I valori non categoriali possono contenere un massimo di 1000 caratteri.

  • Amazon Personalize può includere i metadati degli articoli nei consigli, inclusi valori di stringa non categoriali. Puoi utilizzare i metadati per arricchire i consigli nella tua interfaccia utente, ad esempio aggiungere il nome del regista a un carosello di consigli sui film. Per ulteriori informazioni, consulta Metadati degli articoli nei consigli.

  • Se lo utilizziOggetti simili, puoi generare consigli in batch con temi. Quando si generano consigli in batch con temi, è necessario specificare una colonna con il nome dell'elemento nel processo di inferenza in batch. Per ulteriori informazioni, consulta Suggerimenti per i batch con temi di Content Generator.

  • È possibile creare filtri per includere o rimuovere elementi dai consigli in base a dati di stringa non categoriali. Per ulteriori informazioni sui filtri, consultare Suggerimenti di filtraggio e segmenti di utenti.

Esempio di metadati degli elementi

Le prime righe di metadati dei filmati in un CSV file potrebbero essere simili alle seguenti.

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...

La ITEM_ID colonna è obbligatoria e contiene identificatori univoci per ogni singolo articolo. La GENRE colonna memorizza i metadati categorici per ogni film e la DESCRIPTION colonna è costituita da metadati testuali non strutturati. La CREATION_TIMESTAMP colonna memorizza l'ora di creazione di ogni elemento nel formato Unix Epoch Time in secondi.

Dopo aver completato la preparazione dei dati, si è pronti per creare un file di schemaJSON. Questo file indica ad Amazon Personalize la struttura dei tuoi dati. Per ulteriori informazioni, consulta Creazione di JSON file di schema per schemi Amazon Personalize. Ecco come apparirebbe il JSON file di schema per i dati di esempio sopra riportati.

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }