Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exploration de vos données à l'aide d'analyses
Note
Vous ne pouvez utiliser les analyses SageMaker Canvas que pour les modèles basés sur des ensembles de données tabulaires. Les modèles de prédiction de texte multi-catégories sont également exclus.
Grâce aux analyses d'Amazon SageMaker Canvas, vous pouvez explorer votre ensemble de données et obtenir des informations sur toutes vos variables avant de créer un modèle. Vous pouvez déterminer les relations entre les fonctions de votre jeu de données à l'aide de matrices de corrélation. Vous pouvez utiliser cette technique pour résumer votre jeu de données dans une matrice qui montre les corrélations entre deux valeurs ou plus. Cela vous permet d'identifier et de visualiser des modèles dans un jeu de données donné pour une analyse avancée des données.
La matrice montre la corrélation entre chaque caractéristique sous forme positive, négative ou neutre. Vous souhaiterez peut-être inclure des fonctions présentant une forte corrélation entre elles lors de la création de votre modèle. Les fonctions qui n'ont que peu ou pas de corrélation peuvent ne pas être pertinentes pour votre modèle et vous pouvez supprimer ces fonctions lors de la création de votre modèle.
Pour commencer à utiliser les matrices de corrélation dans SageMaker Canvas, consultez la section suivante.
Créer une matrice de corrélation
Vous pouvez créer une matrice de corrélation lorsque vous vous préparez à créer un modèle dans l'onglet Créer de l'application SageMaker Canvas.
Pour obtenir des instructions sur les premières étapes de création d'un modèle, consultez Créer un modèle.
Après avoir commencé à préparer un modèle dans l'application SageMaker Canvas, procédez comme suit :
-
Dans l'onglet Build (Créer), choisissez Data visualizer (Visualiseur de données).
-
Choisissez Analytics (Analytique).
-
Choisissez Correlation matrix (Matrice de corrélation).
Vous devriez voir une visualisation similaire à la capture d'écran suivante, qui montre jusqu'à 15 colonnes du jeu de données organisées dans une matrice de corrélation.
Une fois que vous avez créé la matrice de corrélation, vous pouvez la personnaliser en procédant comme suit :
1. Choisir vos colonnes
Pour Columns (Colonnes), vous pouvez sélectionner les colonnes que vous souhaitez inclure dans la matrice. Vous pouvez comparer jusqu'à 15 colonnes de votre jeu de données.
Note
Vous pouvez utiliser des types de colonnes numériques, catégoriels ou binaires pour une matrice de corrélation. La matrice de corrélation ne prend pas en charge les types de colonne de données date/heure ou texte.
Pour ajouter ou supprimer des colonnes de la matrice de corrélation, sélectionnez et désélectionnez des colonnes dans le panneau Columns (Colonnes). Vous pouvez également glisser-déposer des colonnes du panneau directement sur la matrice. Si votre jeu de données comporte de nombreuses colonnes, vous pouvez rechercher les colonnes souhaitées dans la barre Search columns (Rechercher des colonnes).
Pour filtrer les colonnes par type de données, choisissez la liste déroulante et sélectionnez Tout, Numérique ou Catégoriel. En sélectionnant All (Tout), vous pouvez voir toutes les colonnes de votre jeu de données, tandis que les filtres Numeric (Numérique) et Categorical (Categorical (catégorie)) ne vous montrent que les colonnes numériques ou catégorielles de votre jeu de données. Notez que les types de colonnes binaires sont inclus dans les filtres numériques ou catégoriels.
Pour obtenir les meilleures informations sur les données, incluez votre colonne cible dans la matrice de corrélation. Lorsque vous incluez votre colonne cible dans la matrice de corrélation, elle apparaît comme la dernière fonction de la matrice avec un symbole cible.
2. Choisir votre type de corrélation
SageMaker Canvas prend en charge différents types de corrélation ou méthodes de calcul de la corrélation entre vos colonnes.
Pour modifier le type de corrélation, utilisez le filtre Columns (Colonnes) mentionné dans la section précédente afin de filtrer le type de colonne et les colonnes souhaités. Vous devriez voir le Correlation type (Type de corrélation) dans le panneau latéral. Pour les comparaisons numériques, vous pouvez sélectionner Pearson ou Spearman. Pour les comparaisons catégorielles, le type de corrélation est défini sur MI. Pour les comparaisons catégorielles et mixtes, le type de corrélation est défini sur Spearman & MI.
Pour les matrices qui ne comparent que des colonnes numériques, le type de corrélation est Pearson ou Spearman. La mesure de Pearson évalue la relation linéaire entre deux variables continues. La mesure de Spearman évalue la relation monotone entre deux variables. Pour Pearson et Spearman, l'échelle de corrélation va de -1 à 1, chaque extrémité de l'échelle indiquant une corrélation parfaite (une relation directe de 1:1) et 0 indiquant l'absence de corrélation. Vous pouvez vouloir sélectionner Pearson si vos données présentent davantage de relations linéaires (comme le montre une visualisation par nuage de points). Si vos données ne sont pas linéaires ou contiennent un mélange de relations linéaires et monotones, vous pouvez sélectionner Spearman.
Pour les matrices qui ne comparent que des colonnes catégorielles, le type de corrélation est défini sur Mutual Information Classification (MI). La valeur MI est une mesure de la dépendance mutuelle entre deux variables aléatoires. La mesure de MI est sur une échelle de 0 à 1, 0 indiquant l'absence de corrélation et 1 indiquant une corrélation parfaite.
Pour les matrices qui comparent un mélange de colonnes numériques et catégorielles, le type de corrélation Spearman & MI est une combinaison des types de corrélation Spearman et MI. Pour les corrélations entre deux colonnes numériques, la matrice indique la valeur de Spearman. Pour les corrélations entre une colonne numérique et une colonne catégorielle ou deux colonnes catégorielles, la matrice indique la valeur MI.
Enfin, n'oubliez pas que la corrélation n'indique pas nécessairement un lien de causalité. Une forte valeur de corrélation indique uniquement qu'il existe une relation entre deux variables, mais les variables peuvent ne pas avoir de relation causale. Passez en revue attentivement les colonnes qui vous intéressent afin d'éviter tout biais lors de la création de votre modèle.
3. Filtrer vos corrélations
Dans le panneau latéral, vous pouvez utiliser la fonction Filter correlations (Filtrer les corrélations) pour filtrer la plage de valeurs de corrélation que vous souhaitez inclure dans la matrice. Par exemple, si vous souhaitez filtrer les fonctions qui n'ont qu'une corrélation positive ou neutre, vous pouvez définir Min sur 0 et Max sur 1 (les valeurs valides sont comprises entre -1 et 1).
Pour les comparaisons entre Spearman et Pearson, vous pouvez définir la plage Filter correlations (Filtrer les corrélations) comprise entre -1 et 1, 0 signifiant qu'il n'y a aucune corrélation. -1 et 1 signifient que les variables présentent une forte corrélation négative ou positive, respectivement.
Pour les comparaisons MI, la plage de corrélation va uniquement de 0 à 1, 0 signifiant qu'il n'y a pas de corrélation et 1 signifie que les variables ont une forte corrélation, positive ou négative.
Chaque fonction possède une corrélation parfaite (1) avec elle-même. Par conséquent, vous remarquerez peut-être que la ligne supérieure de la matrice de corrélation est toujours 1. Si vous souhaitez exclure ces valeurs, vous pouvez utiliser le filtre pour définir Max inférieur à 1.
N'oubliez pas que si votre matrice compare un mélange de colonnes numériques et catégorielles et utilise le type de corrélation Spearman & MI, les corrélations catégorielles x numériques et catégorielles x catégorielles (qui utilisent la mesure MI) se situent sur une échelle de 0 à 1, alors que les corrélations numériques x numériques (qui utilisent la mesure Spearman) sont sur une échelle de -1 à 1. Examinez attentivement les corrélations qui vous intéressent pour vous assurer de connaître le type de corrélation utilisé pour calculer chaque valeur.
4. Choisir la méthode de visualisation
Dans le panneau latéral, vous pouvez utiliser Visualize by (Visualiser par) pour modifier la méthode de visualisation de la matrice. Choisissez la méthode de visualisation numérique pour afficher la valeur de corrélation (Pearson, Spearman ou MI), ou choisissez la méthode de visualisation par taille pour visualiser la corrélation avec des points de tailles et de couleurs différentes. Si vous choisissez Size (Taille), vous pouvez survoler un point spécifique de la matrice pour voir la valeur de corrélation réelle.
5. Choisir une palette de couleurs
Dans le panneau latéral, vous pouvez utiliser Color selection (Sélection de couleurs) pour modifier la palette de couleurs utilisée pour l'échelle de corrélation négative à positive dans la matrice. Sélectionnez l'une des palettes de couleurs alternatives pour modifier les couleurs utilisées dans la matrice.