Préparation des données de formation pour Amazon Personalize - Amazon Personalize

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation des données de formation pour Amazon Personalize

Après avoir choisi un cas d'utilisation ou une recette de domaine et pris note de ses exigences en matière de données, vous êtes prêt à commencer à préparer vos données. Amazon Personalize peut utiliser les types de données suivants :

  • Interactions avec les articles — Dans Amazon Personalize, une interaction avec un article est un événement d'interaction positive entre un utilisateur et un article de votre catalogue. Par exemple, un utilisateur qui regarde un film, consulte une annonce ou achète une paire de chaussures.

  • Articles : les métadonnées des articles peuvent inclure des informations telles que le prix, le SKU type, la description ou la disponibilité de chaque article de votre catalogue.

  • Utilisateurs — Les métadonnées utilisateur peuvent inclure des informations telles que l'âge, le sexe, l'adhésion au programme de fidélité et les intérêts de chacun de vos utilisateurs.

  • Actions — Une action est une activité d'engagement que vous souhaiterez peut-être recommander à vos clients. Les actions peuvent inclure l'installation de votre application mobile, la création d'un profil de membre, l'adhésion à votre programme de fidélité ou l'inscription à des e-mails promotionnels. Pour la recette Next-Best-Action, le jeu de données Actions est requis. Aucune autre recette personnalisée ou cas d'utilisation de domaine n'utilise les données Actions.

  • Interactions d'action — Une interaction d'action est un événement d'interaction entre un utilisateur et une action. La recette Next-Best-Action utilise ces données et celles de votre jeu de données Actions pour recommander des actions à vos utilisateurs. Aucune autre recette personnalisée ou cas d'utilisation de domaine n'utilise les données d'interactions d'action.

Amazon Personalize stocke les données dans des ensembles de données, un pour chaque type de données. Chaque jeu de données a des exigences différentes. Lorsque vous importez des données dans un ensemble de données Amazon Personalize, vous pouvez choisir d'importer des enregistrements en bloc, individuellement ou les deux. Les importations en masse impliquent l'importation d'un grand nombre d'enregistrements historiques stockés dans un ou plusieurs CSV fichiers d'un compartiment Amazon S3.

Les sections suivantes présentent les exigences relatives aux données pour chaque type de jeu de données Amazon Personalize et les directives relatives à la préparation de données en masse. Si vous ne disposez pas de données groupées, consultez les sections pour comprendre les données obligatoires et facultatives que vous pouvez importer dans le cadre d'opérations d'importation individuelles. Si vous avez besoin d'aide supplémentaire pour formater vos données, vous pouvez utiliser Amazon SageMaker Data Wrangler (Data Wrangler) pour préparer vos données. Pour de plus amples informations, veuillez consulter Préparation et importation de données en masse à l'aide d'Amazon SageMaker Data Wrangler.

Une fois que vous avez terminé de préparer vos données, vous êtes prêt à créer un JSON fichier de schéma. Ce fichier indique à Amazon Personalize la structure de vos données. Pour de plus amples informations, veuillez consulter Création de JSON fichiers de schéma pour les schémas Amazon Personalize.

Directives relatives au format des données en masse pour tous les types de données

Les directives et exigences suivantes peuvent vous aider à vous assurer que vos données en masse sont correctement formatées.

  • Vos données d'entrée doivent se trouver dans un fichier CSV (valeurs séparées par des virgules).

  • La première ligne de votre CSV fichier doit contenir les en-têtes de colonne. Ne placez pas les en-têtes entre guillemets (« »).

  • Les colonnes doivent avoir des noms alphanumériques uniques. Par exemple, vous ne pouvez pas ajouter à la fois un GENRES_FIELD_1 champ et un GENRESFIELD1 champ.

  • Assurez-vous de disposer des champs obligatoires pour votre type de jeu de données et assurez-vous que leurs noms correspondent aux exigences d'Amazon Personalize. Par exemple, les données de vos articles peuvent comporter une colonne appelée ITEM_IDENTIFICATION_NUMBER avec IDs pour chacun de vos articles. Pour utiliser cette colonne comme champ ITEM _ID, renommez-la en. ITEM_ID Si vous utilisez Data Wrangler pour formater vos données, vous pouvez utiliser les colonnes de carte pour la transformation Amazon Personalize Data Wrangler afin de vous assurer que vos colonnes sont correctement nommées.

    Pour plus d'informations sur l'utilisation de Data Wrangler pour préparer vos données, consultez. Préparation et importation de données en masse à l'aide d'Amazon SageMaker Data Wrangler

  • Chaque enregistrement de votre CSV fichier doit se trouver sur une seule ligne.

  • Amazon Personalize ne prend pas en charge les types de données complexes tels que les tableaux et les cartes.

  • Pour qu'Amazon Personalize utilise des données booléennes lors de l'entraînement ou du filtrage, utilisez des valeurs "True" de chaîne "False" et/ou des valeurs numériques 1 pour vrai et 0 pour faux.

  • Si vous utilisez Data Wrangler pour formater vos données, vous pouvez utiliser le Data Wrangler pour transformer Parse Value as Type pour convertir les types de données.

  • TIMESTAMPet CREATION_TIMESTAMP les données doivent être au format UNIXepoch time. Pour de plus amples informations, veuillez consulter Données d'horodatage.

  • Évitez d'inclure des " caractères ou des caractères spéciaux dans les données d'ID d'élément, d'ID utilisateur et d'ID d'action.

  • Si vos données contiennent des caractères non ASCII codés, votre CSV fichier doit être codé au format UTF -8.

  • Assurez-vous de formater les données textuelles comme décrit dansMétadonnées de texte non structurées.