Directives relatives au format des données en masse pour tous les types de données

Préparation des données de formation pour Amazon Personalize

Après avoir choisi un cas d'utilisation ou une recette de domaine et pris note de ses exigences en matière de données, vous êtes prêt à commencer à préparer vos données. Amazon Personalize peut utiliser les types de données suivants :

Interactions avec les articles — Dans Amazon Personalize, une interaction avec un article est un événement d'interaction positive entre un utilisateur et un article de votre catalogue. Par exemple, un utilisateur qui regarde un film, consulte une annonce ou achète une paire de chaussures.
Articles : les métadonnées des articles peuvent inclure des informations telles que le prix, le type de SKU, la description ou la disponibilité de chaque article de votre catalogue.
Utilisateurs — Les métadonnées utilisateur peuvent inclure des informations telles que l'âge, le sexe, l'adhésion au programme de fidélité et les intérêts de chacun de vos utilisateurs.
Actions — Une action est une activité d'engagement que vous souhaiterez peut-être recommander à vos clients. Les actions peuvent inclure l'installation de votre application mobile, la création d'un profil de membre, l'adhésion à votre programme de fidélité ou l'inscription à des e-mails promotionnels. Pour la Next-Best-Action recette, le jeu de données Actions est requis. Aucune autre recette personnalisée ou cas d'utilisation de domaine n'utilise les données Actions.
Interactions d'action — Une interaction d'action est un événement d'interaction entre un utilisateur et une action. La Next-Best-Action recette utilise ces données et celles de votre jeu de données Actions pour recommander des actions à vos utilisateurs. Aucune autre recette personnalisée ou cas d'utilisation de domaine n'utilise les données d'interactions d'action.

Amazon Personalize stocke les données dans des ensembles de données, un pour chaque type de données. Chaque jeu de données a des exigences différentes. Lorsque vous importez des données dans un ensemble de données Amazon Personalize, vous pouvez choisir d'importer des enregistrements en bloc, individuellement ou les deux. Les importations en masse impliquent l'importation d'un grand nombre d'enregistrements historiques stockés dans un ou plusieurs fichiers CSV d'un compartiment Amazon S3.

Si vous ne disposez pas de données en masse, vous pouvez utiliser des opérations d'importation individuelles pour collecter des données et diffuser des événements jusqu'à ce que vous répondiez aux exigences de formation d'Amazon Personalize et aux exigences en matière de données de votre cas d'utilisation ou de votre recette de domaine. Pour plus d'informations sur l'enregistrement d'événements, consultezEnregistrement des événements en temps réel pour influencer les recommandations. Pour plus d'informations sur l'importation d'enregistrements individuels, consultezImportation d'enregistrements individuels dans un ensemble de données Amazon Personalize.
Si vous n'êtes pas sûr de disposer de suffisamment de données ou si vous avez des questions quant à leur qualité, vous pouvez importer vos données dans un ensemble de données Amazon Personalize et utiliser Amazon Personalize pour les analyser. Pour de plus amples informations, veuillez consulter Analyse de la qualité et de la quantité de données dans les ensembles de données Amazon Personalize.

Les sections suivantes présentent les exigences relatives aux données pour chaque type de jeu de données Amazon Personalize et les directives relatives à la préparation de données en masse. Si vous ne disposez pas de données groupées, consultez les sections pour comprendre les données obligatoires et facultatives que vous pouvez importer dans le cadre d'opérations d'importation individuelles. Si vous avez besoin d'aide supplémentaire pour formater vos données, vous pouvez utiliser Amazon SageMaker AI Data Wrangler (Data Wrangler) pour préparer vos données. Pour de plus amples informations, veuillez consulter Préparation et importation de données en masse à l'aide d'Amazon SageMaker AI Data Wrangler.

Une fois que vous avez terminé de préparer vos données, vous êtes prêt à créer un fichier de schéma JSON. Ce fichier indique à Amazon Personalize la structure de vos données. Pour de plus amples informations, veuillez consulter Création de fichiers JSON pour les schémas Amazon Personalize.

Rubriques

Directives relatives au format des données en masse pour tous les types de données

Les directives et exigences suivantes peuvent vous aider à vous assurer que vos données en masse sont correctement formatées.

Vos données d'entrée doivent se trouver dans un fichier CSV (valeurs séparées par des virgules).
La première ligne de votre fichier CSV doit contenir les en-têtes de colonne. Ne placez pas les en-têtes entre guillemets (« »).
Les colonnes doivent avoir des noms alphanumériques uniques. Par exemple, vous ne pouvez pas ajouter à la fois un GENRES_FIELD_1 champ et un GENRESFIELD1 champ.
Si vous importez plusieurs fichiers CSV, tous les en-têtes de colonne doivent correspondre à tous les fichiers.
Assurez-vous de disposer des champs obligatoires pour votre type de jeu de données et assurez-vous que leurs noms correspondent aux exigences d'Amazon Personalize. Par exemple, les données de vos articles peuvent comporter une colonne appelée ITEM_IDENTIFICATION_NUMBER avec IDs pour chacun de vos articles. Pour utiliser cette colonne comme champ ITEM_ID, renommez-la en. ITEM_ID Si vous utilisez Data Wrangler pour formater vos données, vous pouvez utiliser les colonnes de carte pour la transformation Amazon Personalize Data Wrangler afin de vous assurer que vos colonnes sont correctement nommées.

Pour plus d'informations sur l'utilisation de Data Wrangler pour préparer vos données, consultez. Préparation et importation de données en masse à l'aide d'Amazon SageMaker AI Data Wrangler
Chaque enregistrement de votre fichier CSV doit se trouver sur une seule ligne.
Amazon Personalize ne prend pas en charge les types de données complexes tels que les tableaux et les cartes.
Pour qu'Amazon Personalize utilise des données booléennes lors de l'entraînement ou du filtrage, utilisez des valeurs "True" de chaîne "False" et/ou des valeurs numériques 1 pour vrai et 0 pour faux.
Si vous utilisez Data Wrangler pour formater vos données, vous pouvez utiliser le Data Wrangler pour transformer Parse Value as Type pour convertir les types de données.
TIMESTAMPet CREATION_TIMESTAMP les données doivent être au format Epoch Time Unix. Pour de plus amples informations, veuillez consulter Données d'horodatage.
Évitez d'inclure des " caractères ou des caractères spéciaux dans les données d'ID d'élément, d'ID utilisateur et d'ID d'action.
Si vos données contiennent des caractères non ASCII, votre fichier CSV doit être codé au format UTF-8.
Assurez-vous de formater les données textuelles comme décrit dansMétadonnées de texte non structurées.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

HRNN-Coldstart

Données d'interaction entre les articles