Préparation des métadonnées des éléments pour la formation - Amazon Personalize

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation des métadonnées des éléments pour la formation

Les métadonnées des articles incluent des données numériques et catégoriques sur les éléments avec lesquels vos utilisateurs interagissent. Les métadonnées des articles incluent l'horodatage de création, le prix, le genre, la description et la disponibilité. Vous importez les métadonnées relatives à vos articles dans un ensemble de données Amazon Personalize Items.

Selon le cas d'utilisation de votre domaine ou votre recette personnalisée, les métadonnées des articles peuvent aider Amazon Personalize à recommander des articles plus pertinents aux utilisateurs, à prévoir des articles similaires avec plus de précision ou à recommander des segments d'utilisateurs plus pertinents. Et cela peut aider Amazon Personalize à proposer de nouveaux articles dans ses recommandations. Les métadonnées des éléments sont obligatoires pour certains cas d'utilisation du domaine et facultatives pour toutes les recettes personnalisées. Pour plus d'informations, consultez les exigences en matière de données pour le cas d'utilisation ou la recette de votre domaine dansAdapter votre cas d'utilisation aux ressources Amazon Personalize.

Lors de la formation, Amazon Personalize n'utilise pas de chaînes de données non catégoriques, telles que les titres des articles ou les données relatives à l'auteur. Toutefois, l'importation de ces données peut tout de même améliorer les recommandations. Pour de plus amples informations, veuillez consulter Données de chaîne non catégoriques.

Le nombre maximum d'éléments pris en compte par Amazon Personalize pendant la formation dépend de votre cas d'utilisation ou de votre recette. Seuls les éléments pris en compte lors de la formation peuvent apparaître dans les recommandations.

  • Pour User-Personalization-v2 ou Personalized-Ranking-V2, le nombre maximum d'éléments pris en compte par un modèle pendant l'entraînement est de 5 millions. Ces éléments proviennent à la fois du jeu de données Items et du jeu de données des interactions Item.

  • Pour tous les cas d'utilisation du domaine et les recettes personnalisées autres que User-Personalization-v2 et Personalized-Ranking-V2, le nombre maximum d'éléments pris en compte par un modèle lors de la formation et de la génération de recommandations est de 750 000.

Pour tous les cas d'utilisation du domaine et les recettes personnalisées, les données relatives aux articles en vrac doivent figurer dans un CSV fichier. Chaque ligne du fichier doit représenter un élément unique. Une fois que vous avez terminé de préparer vos données, vous êtes prêt à créer un JSON fichier de schéma. Ce fichier indique à Amazon Personalize la structure de vos données. Pour de plus amples informations, veuillez consulter Création de JSON fichiers de schéma pour les schémas Amazon Personalize.

Les sections suivantes fournissent plus d'informations sur la façon de préparer les métadonnées de vos articles pour Amazon Personalize. Pour les directives relatives au format des données en masse pour tous les types de données, consultez les directives relatives au format des données en masse

Exigences relatives aux données relatives aux articles

Voici les exigences relatives aux métadonnées des articles pour Amazon Personalize.

Si vous n'êtes pas sûr de disposer de suffisamment de données ou si vous avez des questions quant à leur qualité, vous pouvez importer vos données dans un ensemble de données Amazon Personalize et utiliser Amazon Personalize pour les analyser. Pour de plus amples informations, veuillez consulter Analyse de la qualité et de la quantité de données dans les ensembles de données Amazon Personalize.

  • Pour tous les cas d'utilisation du domaine et les recettes personnalisées, vous devez disposer d'une colonne ITEM _ID qui stocke l'identifiant unique de chaque élément. Chaque article doit avoir un numéro d'article. Il doit s'agir string d'une longueur maximale de 256 caractères.

  • Pour les recettes personnalisées, vos données doivent comporter au moins une chaîne catégorique ou une colonne de métadonnées numériques. Les colonnes de métadonnées des éléments peuvent inclure des valeurs vide/nulles. Nous recommandons que ces colonnes soient remplies à au moins 70 %.

  • Pour les cas d'utilisation de domaines, les colonnes requises dépendent de votre domaine. Pour plus d’informations, consultez VIDEOExigences relatives au domaine _ON_ DEMAND ou ECOMMERCEexigences relatives au domaine.

  • Le nombre maximum de colonnes de métadonnées est de 100.

VIDEOExigences relatives au domaine _ON_ DEMAND

Les métadonnées d'un élément sont requises dans certains cas d'utilisation (voirCas d'utilisation de VIDEO_ON_DEMAND). Lorsque cela est facultatif, nous vous recommandons tout de même d'importer les métadonnées des éléments pour obtenir les recommandations les plus pertinentes. Si vous importez des métadonnées d'articles, vos données doivent inclure les colonnes suivantes :

  • ITEM_ID

  • GENRES(catégoriquestring)

  • CREATION_ TIMESTAMP (au format Unix Epoch Time)

Vous trouverez ci-dessous la liste des colonnes supplémentaires recommandées et leurs types obligatoires. Le null type indique que des valeurs peuvent être manquantes dans la colonne. Nous recommandons que ces colonnes soient remplies à au moins 70 %. L'inclusion de ces colonnes peut améliorer les recommandations.

  • PRICE(flotteur)

  • DURATION(flotteur)

  • GENRE_L2 (catégoriquestring,) null

  • GENRE_L3 (catégoriquestring,) null

  • AVERAGE_RATING (float, null)

  • PRODUCT_ DESCRIPTION (textuelstring,null)

  • CONTENT_ OWNER (catégoriquestring,null) — La société propriétaire de la vidéo. Par exemple, les valeurs peuvent être HBO Paramount etNBC.

  • CONTENT_ CLASSIFICATION (catégoriquestring,null) — Évaluation du contenu. Par exemple, les valeurs peuvent être G, PG, PG-13, R, NC-17 et rated.

ECOMMERCEexigences relatives au domaine

Les métadonnées des éléments sont facultatives pour tous les cas ECOMMERCE d'utilisation. Si vous avez des données sur les articles, nous vous recommandons de les importer pour obtenir les recommandations les plus pertinentes. Si vous importez des métadonnées d'articles, vos données doivent comporter les colonnes suivantes :

  • ITEM_ID

  • PRICE (float)

  • CATEGORY_L1 (catégoriquestring) — Pour plus d'informations sur le formatage des données catégorielles, consultez. Métadonnées catégoriques

Vous trouverez ci-dessous la liste des colonnes supplémentaires recommandées et leurs types obligatoires. Le null type indique que des valeurs peuvent être manquantes dans la colonne. Nous recommandons que ces colonnes soient remplies à au moins 70 %. L'inclusion de ces colonnes peut améliorer les recommandations.

  • CATEGORY_L2 (catégoriquestring,) null

  • CATEGORY_L3 (catégoriquestring,) null

  • PRODUCT_ DESCRIPTION (textuelstring,null)

  • CREATION_TIMESTAMP (float)

  • AGE_ GROUP (catégoriquestring,null) — Le groupe d'âge auquel l'article est destiné. Les valeurs peuvent être les nouveau-nés, les nourrissons, les enfants et les adultes.

  • ADULT(catégoriquestring,null) — Si l'article est réservé aux adultes, comme l'alcool. Les valeurs peuvent être « oui » ou « non ».

  • GENDER(catégoriquestring,null) — Le sexe auquel l'article est destiné. Les valeurs peuvent être masculines, féminines ou unisexes.

Données d'horodatage de création

Les données d'horodatage de création doivent être au format Unix Epoch Time en secondes. Par exemple, l'horodatage Epoch en secondes pour la date du 31 juillet 2020 est 1596238243. Pour convertir les dates en horodatages d'époque Unix, utilisez un convertisseur Epoch, un convertisseur d'horodatage Unix.

Amazon Personalize utilise les données d'horodatage de création (au format Unix Epoch, en secondes) pour calculer l'âge d'un article et ajuster les recommandations en conséquence.

Si les données d'horodatage de création sont manquantes pour un ou plusieurs articles, Amazon Personalize déduit ces informations à partir des données d'interaction, le cas échéant, et utilise l'horodatage des données d'interaction les plus anciennes de l'article comme date de création de l'article. Si un article ne contient aucune donnée d'interaction, son horodatage de création est défini comme l'horodatage de la dernière interaction du set d'entraînement et Amazon Personalize le considère comme un nouvel article.

Métadonnées catégoriques

Avec certaines recettes et tous les cas d'utilisation de domaines, Amazon Personalize utilise des métadonnées catégoriques, telles que le genre ou la couleur d'un article, pour identifier les modèles sous-jacents qui révèlent les articles les plus pertinents pour vos utilisateurs. Vous définissez votre propre plage de valeurs en fonction de votre cas d'utilisation. Les métadonnées catégorielles peuvent être rédigées dans n'importe quelle langue.

Pour les articles comportant plusieurs catégories, séparez chaque valeur par la barre verticale « | ». Par exemple, pour un GENRES champ, vos données pour un élément peuvent êtreAction|Crime|Biopic. Si vous disposez de plusieurs niveaux de données catégorielles et que certains éléments comportent plusieurs catégories pour chaque niveau de la hiérarchie, utilisez une colonne distincte pour chaque niveau et ajoutez un indicateur de niveau après le nom de chaque champ :GENRES, GENRE _L2, _L3. GENRE Cela vous permet de filtrer les recommandations en fonction de sous-catégories, même si un article appartient à plusieurs catégories à plusieurs niveaux (pour plus d'informations sur la création et l'utilisation de filtres, voirRecommandations de filtrage et segments d'utilisateurs). Par exemple, une vidéo peut contenir les données suivantes pour chaque niveau de catégorie :

  • GENRES: Action|Aventure

  • GENRE_L2 : Criminel|Western

  • GENRE_L3 : Biopic

Dans cet exemple, la vidéo se trouve dans la hiérarchie action > crime > biopic et dans la hiérarchie aventure > western > biopic. Nous vous recommandons de n'utiliser que le niveau L3, mais vous pouvez utiliser d'autres niveaux si nécessaire.

Les valeurs catégorielles peuvent comporter un maximum de 1 000 caractères. Si vous avez un élément avec une valeur catégorique de plus de 1 000 caractères, votre tâche d'importation de jeu de données échouera. Nous recommandons que les colonnes catégorielles comportent au maximum 1 000 valeurs possibles. L'importation de données catégorielles comportant davantage de valeurs peut avoir un impact négatif sur les recommandations. Les éléments suivants peuvent vous aider à réduire le nombre de valeurs possibles pour une colonne catégorielle :

  • Assurez-vous que les valeurs respectent une convention de dénomination cohérente et vérifiez qu'il n'y a pas de fautes de frappe. Par exemple, utilisez « Chaussures pour hommes » plutôt que d'avoir un mélange de « chaussures pour hommes », « chaussures pour hommes » et « chaussures pour hommes ».

  • Consolidez les catégories similaires qui utilisent des termes légèrement différents faisant référence à la même catégorie sous-jacente, comme « Chaussures » et « Espadrilles ».

  • Si vos données ont une structure hiérarchique, dans laquelle des catégories plus larges (comme « Chaussures ») contiennent des sous-catégories plus spécifiques (telles que « Chaussures pour hommes », « Chaussures pour femmes », « Chaussures pour enfants »), utilisez une colonne distincte pour chaque niveau et ajoutez un indicateur de niveau après le nom de chaque champ. Par exemple, CATEGORY _1, CATEGORY _2 et CATEGORY _3. Cela permet de réduire les catégories ambiguës ou qui se chevauchent.

Avec toutes les recettes et tous les domaines, vous pouvez importer des données catégorielles et les utiliser pour filtrer les recommandations en fonction des attributs d'un article. Pour plus d'informations sur les recommandations de filtrage, consultezRecommandations de filtrage et segments d'utilisateurs.

Métadonnées de texte non structurées

Avec certaines recettes et certains domaines, Amazon Personalize peut extraire des informations pertinentes à partir de métadonnées de texte non structurées, telles que des descriptions de produits, des critiques de produits ou des synopsis de films. Amazon Personalize utilise du texte non structuré pour identifier les articles pertinents pour vos utilisateurs, en particulier lorsque les articles sont nouveaux ou contiennent moins de données d'interactions. Vous pouvez ajouter au plus un champ textuel. Incluez des données textuelles non structurées dans votre jeu de données d'articles afin d'augmenter les taux de clics et les taux de conversation pour les nouveaux articles de votre catalogue.

Lorsque vous préparez vos métadonnées de texte non structuré, placez le texte entre guillemets et supprimez tout nouveau caractère de ligne. Utilisez le \ caractère pour éviter les guillemets ou les caractères \ dans vos données. Amazon Personalize tronque les champs de texte à la limite de caractères. Assurez-vous que les informations les plus pertinentes du texte se trouvent au début du champ.

Les valeurs de texte non structurées peuvent comporter au maximum 20 000 caractères dans toutes les langues sauf le chinois et le japonais. Pour le chinois et le japonais, vous pouvez compter au maximum 7 000 caractères. Amazon Personalize tronque les valeurs qui dépassent la limite de caractères jusqu'à la limite de caractères.

Vous pouvez soumettre des éléments de texte non structurés dans plusieurs langues, mais le texte de chaque élément ne doit être rédigé que dans une seule langue. Le texte peut être rédigé dans les langues suivantes :

  • Chinois (simplifié)

  • Chinois (Traditionnel)

  • Anglais

  • Français

  • Allemand

  • Japonais

  • Portugais

  • Espagnol

Données numériques

Amazon Personalize peut utiliser les métadonnées numériques des articles, telles que le prix ou la durée de la vidéo, afin de générer des recommandations plus pertinentes pour les utilisateurs. Ces données numériques peuvent être représentées sous forme de nombres entiers ou de valeurs décimales.

Si vous utilisez des Personnalisation par l'utilisateur recettes Personalized-Ranking personnalisées, vous pouvez optimiser une solution Amazon Personalize pour un objectif lié aux métadonnées d'un article, en plus d'une pertinence maximale, telle que la maximisation des revenus. Lorsque vous configurez votre solution, vous choisissez la colonne de métadonnées numériques de votre jeu de données Items qui est liée à votre objectif. Par exemple, vous pouvez choisir une LENGTH colonne VIDEO _ pour maximiser les minutes de diffusion ou une PRICE colonne pour maximiser les revenus.

Pour de plus amples informations, veuillez consulter Optimisation d'une solution pour un objectif supplémentaire.

Données de chaîne non catégoriques

À l'exception des articlesIDs, Amazon Personalize n'utilise pas de chaînes non textuelles non catégoriques lors de la formation, telles que les titres des articles ou les données relatives à l'auteur. Amazon Personalize peut toutefois l'utiliser avec les fonctionnalités suivantes. Les valeurs non catégoriques peuvent comporter un maximum de 1 000 caractères.

  • Amazon Personalize peut inclure les métadonnées des articles dans les recommandations, y compris des valeurs de chaîne non catégoriques. Vous pouvez utiliser des métadonnées pour enrichir les recommandations dans votre interface utilisateur, par exemple en ajoutant le nom du réalisateur à un carrousel de recommandations de films. Pour de plus amples informations, veuillez consulter Métadonnées des éléments dans les recommandations.

  • Si vous en utilisezObjets similaires, vous pouvez générer des recommandations par lots avec des thèmes. Lorsque vous générez des recommandations par lots avec des thèmes, vous devez spécifier une colonne de nom d'article dans le travail d'inférence par lots. Pour de plus amples informations, veuillez consulter Recommandations par lots avec des thèmes issus du générateur de contenu.

  • Vous pouvez créer des filtres pour inclure ou supprimer des éléments des recommandations sur la base de données de chaîne non catégoriques. Pour plus d'informations sur les filtres, consultez Recommandations de filtrage et segments d'utilisateurs.

Exemple de métadonnées d'éléments

Les premières lignes des métadonnées d'un film d'un CSV fichier peuvent ressembler à ce qui suit.

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...

La ITEM_ID colonne est obligatoire et contient des identifiants uniques pour chaque article individuel. La GENRE colonne stocke les métadonnées catégorielles pour chaque film et la DESCRIPTION colonne contient des métadonnées textuelles non structurées. La CREATION_TIMESTAMP colonne stocke l'heure de création de chaque élément au format Unix Epoch Time en secondes.

Une fois que vous avez terminé de préparer vos données, vous êtes prêt à créer un JSON fichier de schéma. Ce fichier indique à Amazon Personalize la structure de vos données. Pour de plus amples informations, veuillez consulter Création de JSON fichiers de schéma pour les schémas Amazon Personalize. Voici à quoi ressemblerait le JSON fichier de schéma pour les exemples de données ci-dessus.

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }