Préparation et importation de données en masse - Amazon Personalize

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation et importation de données en masse

Lorsque vous avez créé un ensemble de données, vous êtes prêt à commencer à importer vos données historiques en masse dans Amazon Personalize. Deux options s'offrent à vous pour importer vos enregistrements en bloc :

  • Pour les interactions entre articles, les utilisateurs et les ensembles de données sur les articles, vous pouvez utiliser Amazon SageMaker Data Wrangler pour importer vos données depuis plus de 40 sources, générer des visualisations et des informations spécifiques à Amazon Personalize, et les transformer pour répondre aux exigences d'Amazon Personalize.

  • Pour tous les types de jeux de données, vous pouvez importer des données en masse directement dans les ensembles de données. Lorsque vous importez directement, vous formatez manuellement vos données pour répondre aux exigences d'Amazon Personalize et vous les chargez sur Amazon S3. Vous créez ensuite un schéma et un jeu de données, puis vous importez les données directement dans le jeu de données à l'aide d'une tâche d'importation de jeu de données.

Les instructions suivantes peuvent vous aider à vous assurer que vos données groupées sont correctement formatées.

  • Vos données d'entrée doivent se trouver dans un fichier CSV (valeurs séparées par des virgules).

  • La première ligne de votre fichier CSV doit contenir les en-têtes de colonne. Ne placez pas les en-têtes entre guillemets (« »).

  • Assurez-vous de disposer des champs obligatoires pour votre type de jeu de données et assurez-vous que leurs noms correspondent aux exigences d'Amazon Personalize. Par exemple, les données de vos articles peuvent comporter une colonne appelée ITEM_IDENTIFICATION_NUMBER avec des identifiants pour chacun de vos articles. Pour utiliser cette colonne comme champ ITEM_ID, renommez-la en. ITEM_ID Si vous utilisez Data Wrangler pour formater vos données, vous pouvez utiliser les colonnes de carte pour la transformation Amazon Personalize Data Wrangler afin de vous assurer que vos colonnes sont correctement nommées.

    Pour plus d'informations sur les champs obligatoires, consultezSchémas. Pour plus d'informations sur l'utilisation de Data Wrangler pour préparer vos données, consultez. Préparation et importation de données à l'aide d'Amazon SageMaker Data Wrangler

  • Les noms des en-têtes de colonne de votre fichier CSV doivent correspondre à votre schéma.

  • Chaque enregistrement de votre fichier CSV doit se trouver sur une seule ligne.

  • Les types de données de chaque colonne doivent correspondre à votre schéma. Si vous utilisez Data Wrangler pour formater vos données, vous pouvez utiliser le Data Wrangler pour transformer Parse Value as Type pour convertir les types de données.

  • TIMESTAMPet CREATION_TIMESTAMP les données doivent être au format Epoch Time Unix. Pour plus d’informations, consultez Données d'horodatage.

  • Évitez d'inclure des " caractères ou des caractères spéciaux dans les données d'ID d'élément, d'ID utilisateur et d'ID d'action.

  • Si vos données contiennent des caractères non ASCII, votre fichier CSV doit être codé au format UTF-8.

  • Assurez-vous de formater les données textuelles comme décrit dansMétadonnées de texte non structurées.

  • Assurez-vous de formater les données d'impression et les données catégorielles comme décrit dans Formatage d'impressions explicites etFormatage des données catégorielles.

Pour plus d'informations sur les exigences de formatage des données en masse pour Amazon Personalize, consultezDirectives relatives au format des données.

Après avoir importé des données dans un ensemble de données Amazon Personalize, vous pouvez les analyser, les exporter vers un compartiment Amazon S3, les mettre à jour ou les supprimer en supprimant le jeu de données. Pour plus d’informations, consultez Gestion des données d'entraînement dans vos ensembles de données.

Si vous avez déjà créé un recommandateur ou déployé une version de solution personnalisée dans le cadre d'une campagne, l'influence des nouveaux enregistrements groupés sur les recommandations dépend du cas d'utilisation du domaine ou de la recette que vous utilisez. Pour plus d’informations, consultez Comment les nouvelles données influencent les recommandations en temps réel.

Mises à jour des filtres pour les enregistrements groupés

Dans les 20 minutes suivant la fin d'une importation en bloc, Amazon Personalize met à jour tous les filtres que vous avez créés dans le groupe de données avec vos nouvelles données d'article et d'utilisateur. Cette mise à jour permet à Amazon Personalize d'utiliser les données les plus récentes pour filtrer les recommandations destinées à vos utilisateurs.