Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Génération de visualisations et d'informations sur les données
Après avoir importé vos données dans Data Wrangler, vous pouvez les utiliser pour générer des visualisations et des informations sur les données.
-
Visualisations : Data Wrangler peut générer différents types de graphiques, tels que des histogrammes et des diagrammes de points. Par exemple, vous pouvez générer un histogramme pour identifier les valeurs aberrantes dans vos données.
-
Informations sur les données : vous pouvez utiliser un rapport sur la qualité et les informations des données pour Amazon Personalize pour en savoir plus sur vos données grâce à des informations sur les données et à des statistiques sur les colonnes et les lignes. Ce rapport peut vous indiquer si vous rencontrez des problèmes de type dans vos données. Et vous pouvez découvrir les mesures que vous pouvez prendre pour améliorer vos données. Ces actions peuvent vous aider à répondre aux besoins en ressources d'Amazon Personalize, tels que les exigences en matière de formation des modèles, ou elles peuvent mener à de meilleures recommandations.
Après avoir découvert vos données grâce à des visualisations et à des informations, vous pouvez utiliser ces informations pour appliquer des transformations supplémentaires afin d'améliorer vos données. Ou, si vous avez terminé de préparer vos données, vous pouvez les traiter et les importer dans Amazon Personalize. Pour plus d'informations sur la transformation de vos données, consultezTransformation des données. Pour plus d'informations sur le traitement et l'importation de données, consultezTraitement des données et importation de celles-ci dans Amazon Personalize.
Génération de visualisations
Vous pouvez utiliser Data Wrangler pour créer différents types de graphiques, tels que des histogrammes et des diagrammes de points. Par exemple, vous pouvez générer un histogramme pour identifier les valeurs aberrantes dans vos données. Pour générer une visualisation des données, vous ajoutez une étape d'analyse à votre flux et, dans Type d'analyse, choisissez la visualisation que vous souhaitez créer.
Pour plus d'informations sur la création de visualisations dans Data Wrangler, consultez Analyze and Visualize dans le manuel Amazon SageMaker Developer Guide.
Générer des informations sur les données
Vous pouvez utiliser Data Wrangler pour générer un rapport sur la qualité et les informations des données pour Amazon Personalize spécifique à votre type de jeu de données. Avant de générer le rapport, nous vous recommandons de transformer vos données pour répondre aux exigences d'Amazon Personalize. Cela permettra d'obtenir des informations plus pertinentes. Pour de plus amples informations, veuillez consulter Transformation des données.
Contenu du rapport
Le rapport sur la qualité et les informations des données pour Amazon Personalize comprend les sections suivantes :
-
Résumé : Le résumé du rapport inclut les statistiques du jeu de données et les avertissements prioritaires :
-
Statistiques du jeu de données : il s'agit notamment des statistiques spécifiques d'Amazon Personalize, telles que le nombre d'utilisateurs uniques dans vos données d'interactions, et des statistiques générales, telles que le nombre de valeurs manquantes ou aberrantes.
-
Avertissements prioritaires : il s'agit des informations spécifiques à Amazon Personalize qui ont le plus d'impact sur la formation ou les recommandations. Chaque avertissement inclut une mesure recommandée que vous pouvez prendre pour résoudre le problème.
-
-
Lignes dupliquées et lignes incomplètes : ces sections contiennent des informations sur les lignes contenant des valeurs manquantes et les lignes dupliquées dans vos données.
-
Résumé des fonctionnalités : Cette section inclut le type de données pour chaque colonne, les informations de données non valides ou manquantes et le nombre d'avertissements.
-
Détails des fonctionnalités : Cette section comprend des sous-sections contenant des informations détaillées pour chacune de vos colonnes de données. Chaque sous-section inclut des statistiques pour la colonne, telles que le nombre de valeurs catégorielles et les informations sur les valeurs manquantes. Et chaque sous-section inclut des informations spécifiques d'Amazon Personalize et des actions recommandées pour les colonnes de données. Par exemple, un aperçu peut indiquer qu'une colonne comporte plus de 30 catégories possibles.
Problèmes liés aux types de données
Le rapport identifie les colonnes dont le type de données n'est pas correct et précise le type requis. Pour obtenir des informations relatives à ces fonctionnalités, vous devez convertir le type de données de la colonne et générer à nouveau le rapport. Pour convertir le type, vous pouvez utiliser le Data Wrangler pour transformer Parse Value as Type.
Amazon Personalize : informations
Les informations d'Amazon Personalize incluent une constatation et une action suggérée. L'action est facultative. Par exemple, le rapport peut inclure un aperçu et une action liés au nombre de catégories pour une colonne de données catégorielles. Si vous pensez que la chronique n'est pas catégorique, vous pouvez ignorer cette information et ne rien faire.
À l'exception de légères différences de formulation, les informations spécifiques à Amazon Personalize sont les mêmes que les informations relatives à un seul ensemble de données que vous pouvez générer lorsque vous analysez vos données avec Amazon Personalize. Par exemple, le rapport d'analyse de Data Wrangler inclut des informations telles que « Le jeu de données des interactions entre éléments ne compte que X utilisateurs uniques avec deux interactions ou plus ». Mais il n'inclut pas d'informations telles que « X % des éléments du jeu de données Items n'ont aucune interaction dans le jeu de données des interactions Item ».
Pour obtenir une liste des informations spécifiques possibles à Amazon Personalize, consultez les informations qui ne font pas référence à Informations sur les données plusieurs ensembles de données.
Exemples de rapports
L'apparence du rapport Amazon Personalize est identique à celle du rapport d'analyse générale de Data Wrangler. Pour des exemples du rapport d'analyse générale, consultez Get Insights On Data and Data Quality dans le manuel Amazon SageMaker Developer Guide. L'exemple suivant montre comment fonctionne la section récapitulative d'un rapport pour un ensemble de données d'interactions entre articles. Il inclut des statistiques sur les ensembles de données et certains avertissements possibles concernant les interactions entre objets et ensembles de données présentant une priorité élevée.
L'exemple suivant montre comment la section des détails des fonctionnalités d'une TYPE colonne EVENT _ d'un jeu de données d'interactions entre éléments peut apparaître dans un rapport.
Génération du rapport
Pour générer le rapport sur la qualité et les informations des données pour Amazon Personalize, vous sélectionnez Obtenir des informations sur les données pour votre transformation et créer une analyse.
Pour générer un rapport sur la qualité et les informations des données pour Amazon Personalize
-
Choisissez l'option + pour la transformation que vous analysez. Si vous n'avez pas ajouté de transformation, sélectionnez le signe + pour la transformation des types de données. Data Wrangler ajoute automatiquement cette transformation à votre flux.
-
Choisissez Obtenir des informations sur les données. Le panneau Créer une analyse s'affiche.
-
Pour le type d'analyse, choisissez Data Quality and Insights Report for Amazon Personalize.
-
Pour le type de jeu de données, choisissez le type de jeu de données Amazon Personalize que vous analysez.
-
Choisissez éventuellement Exécuter sur des données complètes. Par défaut, Data Wrangler génère des informations uniquement sur un échantillon de vos données.
-
Sélectionnez Create (Créer). Lorsque l'analyse est terminée, le rapport apparaît.