Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exigences relatives au schéma du jeu de données d'articles (personnalisé)
Un jeu de données d'articles stocke les métadonnées relatives à vos articles dans votre catalogue. Cela peut inclure des informations telles que le prix, le genre et la disponibilité de chaque article. Pour plus d'informations sur les types de données d'articles que vous pouvez importer dans Amazon Personalize, consultezMétadonnées de l'article.
Les données que vous fournissez pour chaque élément doivent correspondre au schéma de votre jeu de données Items. Au minimum, vous devez fournir un identifiant d'article pour chaque article (longueur maximale de 256 caractères). Selon votre schéma, les métadonnées des éléments peuvent inclure des valeurs vide/nulles. Votre schéma doit comporter au moins un champ de métadonnées, mais si vous ajoutez un null
type, cette valeur peut être nulle pour l'élément. Vous êtes libre d'ajouter des champs supplémentaires en fonction de votre cas d'utilisation et de vos données. Tant que les champs ne sont pas répertoriés comme obligatoires ou réservés et que les types de données y sont répertoriésTypes de données de schéma, les noms des champs et les types de données dépendent de vous.
Pour utiliser des données catégorielles, ajoutez un champ de type string
et définissez l'attribut catégorique du champ sur true
dans votre schéma. Incluez ensuite les données catégorielles dans votre CSV fichier groupé et dans les importations d'articles individuels. Les valeurs catégorielles peuvent comporter au maximum 1 000 caractères. Si vous avez un élément avec une valeur catégorique de plus de 1 000 caractères, votre tâche d'importation de jeu de données échouera.
Pour les articles comportant plusieurs catégories, séparez chaque valeur par la barre verticale « | ». Par exemple, pour un GENRES champ, vos données pour un élément peuvent êtreAction|Crime|Biopic
. Si vous disposez de plusieurs niveaux de données catégorielles et que certains éléments comportent plusieurs catégories pour chaque niveau de la hiérarchie, ajoutez un champ pour chaque niveau et ajoutez un indicateur de niveau après le nom de chaque champ :GENRES, GENRE _L2, _L3. GENRE Cela vous permet de filtrer les recommandations en fonction de sous-catégories, même si un article appartient à plusieurs catégories à plusieurs niveaux (pour plus d'informations sur la création et l'utilisation de filtres, voirRecommandations de filtrage et segments d'utilisateurs). Par exemple, une vidéo peut contenir les données suivantes pour chaque niveau de catégorie :
-
GENRES: Action|Aventure
-
GENRE_L2 : Criminel|Western
-
GENRE_L3 : Biopic
Dans cet exemple, la vidéo se trouve dans la hiérarchie action > crime > biopic et dans la hiérarchie aventure > western > biopic. Nous vous recommandons de n'utiliser que le niveau L3, mais vous pouvez utiliser d'autres niveaux si nécessaire.
Pendant la formation des modèles, Amazon Personalize prend en compte un maximum de 750 000 articles. Si vous importez plus de 750 000 articles, Amazon Personalize décide quels articles inclure dans la formation, en mettant l'accent sur les nouveaux articles (articles que vous avez récemment ajoutés sans interaction) et les articles existants avec des données d'interactions récentes.
Pour plus d'informations sur les exigences minimales et les limites de données maximales pour un jeu de données Items, consultezQuotas de service.
Exemple de schéma de jeu de données d'articles (personnalisé)
L'exemple suivant montre comment structurer un schéma Items. Le champ ITEM_ID
est obligatoire. Le GENRE
champ est constitué de métadonnées catégoriques et le DESCRIPTION
champ de métadonnées textuelles. Au moins un champ de métadonnées est obligatoire. Vous pouvez ajouter un maximum de 100 champs de métadonnées. Le CREATION_TIMESTAMP
champ est un mot clé réservé. Pour plus d'informations sur les exigences du schéma, consultezExigences relatives aux ensembles de données et aux schémas personnalisés.
{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }
Pour ce schéma, les premières lignes de données historiques d'un CSV fichier peuvent ressembler à ce qui suit.
ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...