Exploration de vos données à l'aide de techniques de visualisation - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exploration de vos données à l'aide de techniques de visualisation

Note

Vous ne pouvez utiliser les visualisations SageMaker Canvas que pour les modèles basés sur des jeux de données tabulaires. Les modèles de prédiction de texte multi-catégories sont également exclus.

Avec Amazon SageMaker Canvas, vous pouvez explorer et visualiser vos données pour obtenir des informations avancées sur vos données avant de créer vos modèles de machine learning. Vous pouvez les visualiser à l'aide de nuages de points, de diagrammes à barres et de diagrammes de quartiles, ce qui peut vous aider à comprendre vos données et à découvrir les relations entre les caractéristiques susceptibles d'affecter la précision du modèle.

Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Data visualizer pour commencer à créer vos visualisations.

Vous pouvez modifier la taille de l'échantillon de visualisation pour régler la taille de l'échantillon aléatoire prélevé dans votre jeu de données. Une trop grande taille d'échantillon peut affecter les performances de vos visualisations de données. Nous vous recommandons donc de choisir une taille d'échantillon appropriée. Pour modifier la taille de l'échantillon, utilisez la procédure suivante.

  1. Choisissez Visualization sample (Échantillon de visualisation).

  2. Utilisez le curseur pour sélectionner la taille d'échantillon souhaitée.

  3. Choisissez Update (Mettre à jour) pour confirmer la modification de votre taille d'échantillon.

Note

Certaines techniques de visualisation nécessitent des colonnes d'un type de données spécifique. Par exemple, vous pouvez utiliser uniquement des colonnes numériques pour les axes x et y des nuages de points.

Diagramme à points

Pour créer un nuage de points avec votre jeu de données, choisissez Scatter plot (Nuage de points) dans le volet Visualization (Visualisation). Choisissez les entités que vous souhaitez tracer sur les axes x et y dans la section Colonnes. Vous pouvez glisser-déposer les colonnes sur les axes ou, une fois qu'un axe a été supprimé, vous pouvez choisir une colonne dans la liste des colonnes prises en charge.

Vous pouvez utiliser Color by (Couleur par) pour colorer les points de données du graphique avec une troisième caractéristique. Vous pouvez également utiliser Group by (Grouper par) pour regrouper les données dans des graphiques distincts en fonction d'une quatrième caractéristique.

L'image suivante illustre un nuage de points qui utilise Color by (Couleur par) et Group by (Grouper par). Dans cet exemple, chaque point de données est coloré par la caractéristique MaritalStatus et le regroupement par la caractéristique Department génère un nuage de points pour les points de données de chaque service.

Capture d'écran d'un nuage de points dans la vue Visualiseur de données de l'application Canvas.

Diagramme à barres

Pour créer un diagramme à barres avec votre jeu de données, choisissez Bar chart (Diagramme à barres) dans le volet Visualization (Visualisation). Choisissez les entités que vous souhaitez tracer sur les axes x et y dans la section Colonnes. Vous pouvez glisser-déposer les colonnes sur les axes ou, une fois qu'un axe a été supprimé, vous pouvez choisir une colonne dans la liste des colonnes prises en charge.

Vous pouvez utiliser Group by (Grouper par) pour regrouper le graphique à barres en fonction d'une troisième caractéristique. Vous pouvez utiliser Stack by (Empiler par) pour ombrer verticalement chaque barre en fonction des valeurs uniques d'une quatrième caractéristique.

L'image suivante montre un graphique à barres qui utilise Group by (Grouper par) et Stack by (Empiler par). Dans cet exemple, le graphique à barres est groupé par la caractéristique MaritalStatus et empilé par la caractéristique JobLevel. Pour chaque JobRole sur l'axe x, il existe une barre distincte pour les catégories uniques dans la caractéristique MaritalStatus et chaque barre est empilée verticalement par la caractéristique JobLevel.

Capture d'écran d'un graphique à barres dans la vue Visualiseur de données de l'application Canvas.

Diagramme de quartiles

Pour créer un diagramme de quartiles avec votre jeu de données, choisissez Box plot (Diagramme de quartiles) dans le volet Visualization (Visualisation). Choisissez les entités que vous souhaitez tracer sur les axes x et y dans la section Colonnes. Vous pouvez glisser-déposer les colonnes sur les axes ou, une fois qu'un axe a été supprimé, vous pouvez choisir une colonne dans la liste des colonnes prises en charge.

Vous pouvez utiliser Group by (Grouper par) pour regrouper les diagrammes de quartiles en fonction d'une troisième caractéristique.

L'image suivante montre un diagramme de quartiles qui utilise Group by (Grouper par). Dans cet exemple, les axes x et y montrent JobLevel et JobSatisfaction, respectivement, et les diagrammes de quartiles colorés sont regroupés selon la caractéristique Department.

Capture d'écran d'un diagramme de quartiles dans la vue Visualiseur de données de l'application Canvas.