Préparation des données pour la création de modèles - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation des données pour la création de modèles

Note

Vous pouvez désormais effectuer une préparation avancée des données dans SageMaker Canvas avec Data Wrangler, qui vous fournit une interface en langage naturel et plus de 300 transformations intégrées. Pour de plus amples informations, veuillez consulter Préparation des données.

Votre jeu de données de machine learning peut nécessiter une préparation des données avant de créer votre modèle. Vous pourriez vouloir nettoyer vos données en raison de divers problèmes, notamment des valeurs manquantes ou aberrantes, et effectuer une ingénierie des fonctionnalités pour améliorer la précision de votre modèle. Amazon SageMaker Canvas fournit des transformations de données ML qui vous permettent de nettoyer, de transformer et de préparer vos données pour la création de modèles. Vous pouvez utiliser ces transformations sur vos ensembles de données sans aucun code. SageMaker Canvas ajoute les transformations que vous utilisez à la recette du modèle, qui est un enregistrement de la préparation des données effectuée sur vos données avant de créer le modèle. Les transformations de données que vous utilisez ne modifient que les données d'entrée pour la création du modèle et ne modifient pas votre source de données d’origine.

L'aperçu de votre jeu de données montre les 100 premières lignes du jeu de données. Si votre jeu de données comporte plus de 20 000 lignes, Canvas prend un échantillon aléatoire de 20 000 lignes et affiche un aperçu des 100 premières lignes de cet échantillon. Vous ne pouvez rechercher et spécifier que les valeurs des lignes prévisualisées, et la fonctionnalité de filtrage ne filtre que les lignes prévisualisées et non l'ensemble du jeu de données.

Les transformations suivantes sont disponibles dans SageMaker Canvas pour vous permettre de préparer vos données en vue de leur création.

Note

Vous pouvez uniquement utiliser des transformations avancées pour les modèles basés sur des jeux de données tabulaires. Les modèles de prédiction de texte multi-catégories sont également exclus.

Supprimer des colonnes

Vous pouvez exclure une colonne de la génération de votre modèle en la déposant dans l'onglet Construire de l'application SageMaker Canvas. Désélectionnez la colonne que vous voulez supprimer et elle ne sera pas incluse dans la création du modèle.

Note

Si vous supprimez des colonnes puis effectuez des prédictions par lots avec votre modèle, SageMaker Canvas réajoute les colonnes supprimées au jeu de données de sortie que vous pouvez télécharger. Cependant, SageMaker Canvas ne réajoute pas les colonnes supprimées pour les modèles de séries chronologiques.

Filtrer les lignes

La fonctionnalité de filtrage permet de filtrer les lignes visualisées (les 100 premières lignes de votre jeu de données) en fonction des conditions que vous spécifiez. Le filtrage des lignes crée un aperçu temporaire des données et n'a pas d'impact sur la création du modèle. Vous pouvez filtrer pour prévisualiser les lignes qui présentent des valeurs manquantes, contiennent des valeurs aberrantes ou répondent à des conditions personnalisées dans une colonne que vous choisissez.

Filtrer les lignes par valeurs manquantes

Les valeurs manquantes sont fréquentes dans les jeux de données de machine learning. Si vous avez des lignes avec des valeurs nulles ou vides dans certaines colonnes, vous pourriez vouloir filtrer et prévisualiser ces lignes.

Pour filtrer les valeurs manquantes de vos données prévisualisées, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Filtrer par lignes ( Filter icon in the SageMaker Canvas application. ).

  2. Choisissez la Column (Colonne) dans laquelle vous voulez vérifier les valeurs manquantes.

  3. Pour Operation (Opération), choisissez Is missing (Est manquant).

SageMaker Le canevas filtre les lignes qui contiennent des valeurs manquantes dans la colonne que vous avez sélectionnée et fournit un aperçu des lignes filtrées.

Capture d'écran de l'opération de filtrage par valeurs manquantes dans l'application SageMaker Canvas.

Filtrer les lignes par valeurs aberrantes

Les valeurs aberrantes, ou valeurs rares dans la distribution et la plage de vos données, peuvent avoir un impact négatif sur la précision du modèle et allonger les temps de construction. SageMaker Canvas vous permet de détecter et de filtrer les lignes contenant des valeurs aberrantes dans des colonnes numériques. Vous pouvez choisir de définir les valeurs aberrantes avec des écarts types ou une plage personnalisée.

Pour filtrer les valeurs aberrantes dans vos données, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Filtrer par lignes ( Filter icon in the SageMaker Canvas application. ).

  2. Choisissez la Column (Colonne) que vous voulez vérifier pour les valeurs aberrantes.

  3. Pour Operation (Opération), choisissez Is outlier (Est aberrante).

  4. Définissez la valeur Outlier range (Plage de valeurs aberrantes) sur Standard deviation (Écart type) ou Custom range (Plage personnalisée).

  5. Si vous choisissez Standard deviation (Écart type), spécifiez une valeur SD (écart type) comprise entre 1 et 3. Si vous choisissez Custom range (Plage personnalisée), sélectionnez soit le Percentile, soit la valeur Number (Nombre), puis spécifiez les valeurs Min et Max.

L'option Standard deviation (Écart type) détecte et filtre les valeurs aberrantes dans les colonnes numériques en utilisant la moyenne et l'écart type. Vous spécifiez le nombre d'écarts-types qu'une valeur doit avoir par rapport à la moyenne pour être considérée comme une valeur aberrante. Par exemple, si vous spécifiez 3 pour SD, une valeur doit se situer à plus de trois écarts types de la moyenne pour être considérée comme une aberration.

L'option Custom range (Plage personnalisée) détecte et filtre les valeurs aberrantes dans les colonnes numériques à l'aide des valeurs minimum et maximum. Utilisez cette méthode si vous connaissez vos valeurs seuils qui délimitent les valeurs aberrantes. Vous pouvez définir le Type de la fourchette comme étant un Percentile ou un Number (Nombre). Si vous choisissez Percentile, les valeurs Min et Max doivent correspondre au minimum et au maximum de la plage de percentiles (0-100) que vous souhaitez autoriser. Si vous choisissez Number (Nombre), les valeurs Min et Max doivent correspondre aux valeurs numériques minimales et maximales que vous souhaitez filtrer dans les données.

Capture d'écran du fonctionnement du filtre par valeurs aberrantes dans l'application SageMaker Canvas.

Filtrer les lignes par des valeurs personnalisées

Vous pouvez filtrer les lignes dont les valeurs répondent à des conditions personnalisées. Par exemple, vous pourriez vouloir prévisualiser les lignes dont la valeur du prix est supérieure à 100 avant de les supprimer. Grâce à cette fonctionnalité, vous pouvez filtrer les lignes qui dépassent le seuil que vous avez défini et prévisualiser les données filtrées.

Pour utiliser la fonctionnalité de filtre personnalisé, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Filtrer par lignes ( Filter icon in the SageMaker Canvas application. ).

  2. Choisissez la Column (Colonne) que vous voulez vérifier.

  3. Sélectionnez le type d'Opération que vous souhaitez utiliser, puis spécifiez les valeurs pour la condition sélectionnée.

Pour Operation (Opération), vous pouvez choisir l'une des options suivantes. Notez que les opérations disponibles dépendent du type de données de la colonne que vous choisissez. Par exemple, vous ne pouvez pas créer une opération is greater than pour une colonne contenant des valeurs de texte.

Opération Type de données pris en charge Type de fonctionnalité pris en charge Fonction

Est égal à

Numérique, Texte

Binaire, Catégoriel

Filtre les lignes dont la valeur dans Column (Colonne) est égale aux valeurs que vous spécifiez.

N'est pas égal à

Numérique, Texte

Binaire, Catégoriel

Filtre les lignes dont la valeur dans Column (Colonne) n'est pas égale aux valeurs que vous spécifiez.

Est inférieur à

Numérique

N/A

Filtre les lignes dont la valeur dans Column (Colonne) est inférieure à la valeur que vous spécifiez.

Inférieur ou égal à

Numérique

N/A

Filtre les lignes dont la valeur dans Column (Colonne) est inférieure ou égale à la valeur que vous spécifiez.

Est supérieur à

Numérique

N/A

Filtre les lignes dont la valeur dans Column (Colonne) est supérieure à la valeur que vous spécifiez.

Supérieur ou égal à

Numérique

N/A

Filtre les lignes dont la valeur dans Column (Colonne) est supérieure ou égale à la valeur que vous spécifiez.

Est comprise entre

Numérique

N/A

Filtre les lignes dont la valeur dans Column (Colonne) est comprise entre ou égale à deux valeurs que vous spécifiez.

Contains

Texte

Categorical (catégorie)

Filtre les lignes dont la valeur dans Column (Colonne) contient une valeur que vous spécifiez.

Starts with

Texte

Categorical (catégorie)

Filtre les lignes dont la valeur dans Column (Colonne) commence par une valeur que vous spécifiez.

Se termine par

Categorical (catégorie)

Categorical (catégorie)

Filtre les lignes dont la valeur dans Column (Colonne) se termine par une valeur que vous spécifiez.

Après avoir défini l'opération de filtrage, SageMaker Canvas met à jour l'aperçu du jeu de données pour afficher les données filtrées.

Capture d'écran de l'opération de filtrage par valeurs personnalisées dans l'application SageMaker Canvas.

Fonctions et opérateurs

Vous pouvez utiliser des fonctions et des opérateurs mathématiques pour explorer et distribuer vos données. Vous pouvez utiliser les fonctions prises en charge par SageMaker Canvas ou créer votre propre formule avec vos données existantes et créer une nouvelle colonne avec le résultat de la formule. Par exemple, vous pouvez ajouter les valeurs correspondantes de deux colonnes et enregistrer le résultat dans une nouvelle colonne.

Vous pouvez imbriquer des instructions pour créer des fonctions plus complexes. Voici quelques exemples de fonctions imbriquées que vous pouvez utiliser.

  • Pour calculerBMI, vous pouvez utiliser la fonctionweight / (height ^ 2).

  • Pour classer les âges, vous pouvez utiliser la fonction Case(age < 18, 'child', age < 65, 'adult', 'senior').

Vous pouvez spécifier des fonctions lors de la phase de préparation des données avant de créer votre modèle. Pour utiliser une fonction, procédez comme suit.

  • Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Afficher tout, puis Formule personnalisée pour ouvrir le panneau Formule personnalisée.

  • Dans le volet Formule personnalisée, choisissez une Formule à ajouter à votre Recette de modèle. Chaque formule est appliquée à toutes les valeurs des colonnes que vous spécifiez. Pour les formules qui acceptent deux colonnes ou plus comme arguments, utilisez des colonnes avec des types de données correspondants ; sinon, vous obtiendrez une erreur ou null des valeurs dans la nouvelle colonne.

  • Après avoir spécifié une formule, ajoutez un nom de colonne dans le champ Nouveau nom de colonne. SageMaker Canvas utilise ce nom pour la nouvelle colonne créée.

  • (Facultatif) Choisissez Prévisualiser pour prévisualiser votre transformation.

  • Pour ajouter la fonction à votre Recette de modèle, choisissez Ajouter.

SageMaker Canvas enregistre le résultat de votre fonction dans une nouvelle colonne en utilisant le nom que vous avez spécifié dans Nouveau nom de colonne. Vous pouvez afficher ou supprimer des fonctions dans le volet Model recipe (Recette du modèle).

SageMaker Canvas prend en charge les opérateurs suivants pour les fonctions. Vous pouvez utiliser le format texte ou en ligne pour spécifier votre fonction.

Opérateur Description Types de données pris en charge Format texte Format en ligne

Addition

Renvoie la somme des valeurs

Numérique

Add(sales1, sales2)

sales1 + sales2

Soustraction

Renvoie la différence entre les valeurs

Numérique

Subtract(sales1, sales2)

sales1 ‐ sales2

Multiplication

Renvoie le produit des valeurs

Numérique

Multiply(sales1, sales2)

sales1 * sales2

Division

Renvoie le quotient des valeurs

Numérique

Divide(sales1, sales2)

sales1 / sales2

Mod

Renvoie le résultat de l'opérateur modulo (le reste après division des deux valeurs)

Numérique

Mod(sales1, sales2)

sales1 % sales2

Abs

Renvoie la valeur absolue de la valeur

Numérique

Abs(sales1)

N/A

Négatif

Renvoie le négatif de la valeur

Numérique

Negate(c1)

‐c1

Exp

Renvoie e (nombre d'Euler) élevé à la puissance de la valeur

Numérique

Exp(sales1)

N/A

Journal

Renvoie le logarithme (base 10) de la valeur

Numérique

Log(sales1)

N/A

Ln

Renvoie le logarithme naturel (base e) de la valeur

Numérique

Ln(sales1)

N/A

Pow

Renvoie la valeur élevée à une puissance

Numérique

Pow(sales1, 2)

sales1 ^ 2

If

Renvoie une étiquette « true » ou « false » en fonction d'une condition que vous spécifiez

Booléen, Numérique, Texte

If(sales1>7000, 'truelabel, 'falselabel')

N/A

Ou

Renvoie une valeur booléenne indiquant si l'une des valeurs ou conditions spécifiées est vraie ou non

Booléen

Or(fullprice, discount)

fullprice || discount

And

Renvoie une valeur booléenne indiquant si deux des valeurs ou conditions spécifiées sont vraies ou non

Booléen

And(sales1,sales2)

sales1 && sales2

Pas

Renvoie une valeur booléenne opposée à la valeur ou aux conditions spécifiées

Booléen

Not(sales1)

!sales1

Cas

Renvoie une valeur booléenne basée sur des instructions conditionnelles (renvoie c1 si cond1 est vrai, renvoie c2 si cond2 est vrai, sinon renvoie c3)

Booléen, Numérique, Texte

Case(cond1, c1, cond2, c2, c3)

N/A

Égal à

Renvoie une valeur booléenne indiquant si deux valeurs sont égales

Booléen, Numérique, Texte

N/A

c1 = c2

c1 == c2

Non égal à

Renvoie une valeur booléenne indiquant si deux valeurs ne sont pas égales

Booléen, Numérique, Texte

N/A

c1 != c2

Inférieur à

Renvoie une valeur booléenne indiquant si c1 est inférieur à c2

Booléen, Numérique, Texte

N/A

c1 < c2

Supérieure à

Renvoie une valeur booléenne indiquant si c1 est supérieur à c2

Booléen, Numérique, Texte

N/A

c1 > c2

Inférieur ou égal à

Renvoie une valeur booléenne indiquant si c1 est inférieur ou égal à c2

Booléen, Numérique, Texte

N/A

c1 <= c2

Supérieur ou égal à

Renvoie une valeur booléenne indiquant si c1 est supérieur ou égal à c2

Booléen, Numérique, Texte

N/A

c1 >= c2

SageMaker Canvas prend également en charge les opérateurs d'agrégation, qui peuvent effectuer des opérations telles que le calcul de la somme de toutes les valeurs ou la recherche de la valeur minimale dans une colonne. Vous pouvez utiliser des opérateurs d'agrégation en combinaison avec des opérateurs standard dans vos fonctions. Par exemple, pour calculer la différence entre les valeurs et la moyenne, vous pouvez utiliser la fonctionAbs(height – avg(height)). SageMaker Canvas prend en charge les opérateurs d'agrégation suivants.

Opérateur d'agrégation Description Format Exemple

sum

Renvoie la somme de toutes les valeurs d'une colonne

sum

sum(c1)

minimum

Renvoie la valeur minimale d'une colonne

min

min(c2)

maximum

Renvoie la valeur maximale d'une colonne

max

max(c3)

average

Renvoie la valeur moyenne d'une colonne

avg

avg(c4)

std

Renvoie l'écart type de l'échantillon d'une colonne

std

std(c1)

stddev

Renvoie l'écart type des valeurs d'une colonne

stddev

stddev(c1)

variance

Renvoie la variance sans décalage des valeurs d'une colonne

variance

variance(c1)

approx_count_distinct

Renvoie le nombre approximatif d'éléments distincts dans une colonne

approx_count_distinct

approx_count_distinct(c1)

count

Renvoie le nombre d'éléments dans une colonne

count

count(c1)

first

Renvoie la première valeur d'une colonne

first

first(c1)

last

Renvoie la dernière valeur d'une colonne

last

last(c1)

stddev_pop

Renvoie l'écart type de population d'une colonne

stddev_pop

stddev_pop(c1)

variance_pop

Renvoie la variance de population des valeurs d'une colonne

variance_pop

variance_pop(c1)

Gestion des lignes

La transformation Gérer les lignes vous permet d'effectuer un tri ou une réorganisation aléatoire et de supprimer des lignes de données du jeu de données.

Tri des lignes

Pour trier les lignes d'un jeu de données selon une colonne donnée, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Gérer les lignes, puis Trier les lignes.

  2. Pour Colonne de tri, choisissez la colonne selon laquelle vous souhaitez effectuer le tri.

  3. Pour Ordre de tri, choisissez Croissant ou Décroissant.

  4. Choisissez Ajouter pour ajouter la transformation à la recette du modèle .

Réorganisation des lignes

Pour réorganiser de manière aléatoire les lignes d'un jeu de données, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Gérer les lignes, puis sélectionnez Mélanger les lignes.

  2. Choisissez Ajouter pour ajouter la transformation à la recette du modèle .

Suppression des lignes en double

Pour supprimer les lignes en double d'un jeu de données, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Gérer les lignes, puis Supprimer les lignes dupliquées.

  2. Choisissez Ajouter pour ajouter la transformation à la recette du modèle .

Supprimer les lignes par valeurs manquantes

Les valeurs manquantes sont fréquentes dans les jeux de données de machine learning et peuvent avoir un impact sur la précision des modèles. Utilisez cette transformation si vous voulez supprimer les lignes avec des valeurs nulles ou vides dans certaines colonnes.

Pour supprimer les lignes qui contiennent des valeurs manquantes dans une colonne spécifiée, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Gérer les lignes.

  2. Choisissez Supprimer les lignes par valeurs manquantes.

  3. Choisissez Ajouter pour ajouter la transformation à la recette du modèle .

SageMaker Canvas supprime les lignes contenant des valeurs manquantes dans la colonne que vous avez sélectionnée. Après avoir supprimé les lignes du jeu de données, SageMaker Canvas ajoute la transformation dans la section Modèle de recette. Si vous supprimez la transformation de la section Model recipe (Recette du modèle), les lignes reviennent dans votre jeu de données.

Capture d'écran de l'opération de suppression de lignes en cas de valeurs manquantes dans l'application SageMaker Canvas.

Suppression des lignes contenant des valeurs aberrantes

Les valeurs aberrantes, ou valeurs rares dans la distribution et la plage de vos données, peuvent avoir un impact négatif sur la précision du modèle et entraîner des temps de création plus longs. Avec SageMaker Canvas, vous pouvez détecter et supprimer les lignes contenant des valeurs aberrantes dans les colonnes numériques. Vous pouvez choisir de définir les valeurs aberrantes avec des écarts types ou une plage personnalisée.

Pour supprimer les valeurs aberrantes de vos données, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Gérer les lignes.

  2. Choisissez Supprimer les lignes par valeurs aberrantes.

  3. Choisissez la Column (Colonne) que vous voulez vérifier pour les valeurs aberrantes.

  4. Définissez Opérateur sur Écart type, Plage numérique personnalisée ou Plage de quantiles personnalisée.

  5. Si vous choisissez Écart type, spécifiez une valeur pour Écarts-types comprise entre 1 et 3. Si vous choisissez Plage numérique personnalisée ou Plage de quantiles personnalisé, spécifiez les valeurs Min et Max (en nombres pour les plages numériques ou en centiles compris entre 0 et 100 % pour les plages de quantiles).

  6. Choisissez Add (Ajouter) pour ajouter la transformation à la Model recipe (Recette du modèle).

L'option Standard deviation (Écart type) détecte et supprime les valeurs aberrantes dans les colonnes numériques en utilisant la moyenne et l'écart type. Vous spécifiez le nombre d'écarts-types qu'une valeur doit avoir par rapport à la moyenne pour être considérée comme une valeur aberrante. Par exemple, si vous définissez Écarts-types sur 3, une valeur doit s'écarter de plus de 3 écarts-types de la moyenne pour être considérée comme aberrante.

Les options Plage numérique personnalisée et Plage de quantiles personnalisée détectent et suppriment les valeurs aberrantes dans les colonnes numériques en utilisant les valeurs minimale et maximale. Utilisez cette méthode si vous connaissez vos valeurs seuils qui délimitent les valeurs aberrantes. Si vous choisissez une plage numérique, les valeurs Min et Max doivent correspondre aux valeurs numériques minimales et maximales que vous souhaitez autoriser dans les données. Si vous choisissez une plage de quantiles, les valeurs Min et Max doivent correspondre au minimum et au maximum de la plage de centiles (0 à 100) que vous souhaitez autoriser.

Après avoir supprimé les lignes du jeu de données, SageMaker Canvas ajoute la transformation dans la section Modèle de recette. Si vous supprimez la transformation de la section Model recipe (Recette du modèle), les lignes reviennent dans votre jeu de données.

Capture d'écran de l'opération de suppression de lignes par valeurs aberrantes dans l'application SageMaker Canvas.

Supprimer des lignes par des valeurs personnalisées

Vous pouvez supprimer les lignes dont les valeurs répondent à des conditions personnalisées. Par exemple, vous pourriez vouloir exclure toutes les lignes dont la valeur du prix est supérieure à 100 lors de la création de votre modèle. Avec cette transformation, vous pouvez créer une règle qui supprime toutes les lignes qui dépassent le seuil que vous avez défini.

Pour utiliser la transformation de suppression personnalisée, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Gérer les lignes.

  2. Choisissez Supprimer les lignes par formule.

  3. Choisissez la Column (Colonne) que vous voulez vérifier.

  4. Sélectionnez le type d'Opération que vous souhaitez utiliser, puis spécifiez les valeurs pour la condition sélectionnée.

  5. Choisissez Add (Ajouter) pour ajouter la transformation à la Model recipe (Recette du modèle).

Pour Operation (Opération), vous pouvez choisir l'une des options suivantes. Notez que les opérations disponibles dépendent du type de données de la colonne que vous choisissez. Par exemple, vous ne pouvez pas créer une opération is greater than pour une colonne contenant des valeurs de texte.

Opération Type de données pris en charge Type de fonctionnalité pris en charge Fonction

Est égal à

Numérique, Texte

Binaire, Catégoriel

Supprime les lignes dont la valeur dans Column (Colonne) est égale aux valeurs que vous spécifiez.

N'est pas égal à

Numérique, Texte

Binaire, Catégoriel

Supprime les lignes dont la valeur dans Column (Colonne) n'est pas égale aux valeurs que vous spécifiez.

Est inférieur à

Numérique

N/A

Supprime les lignes dont la valeur dans Column (Colonne) est inférieure à la valeur que vous spécifiez.

Inférieur ou égal à

Numérique

N/A

Supprime les lignes dont la valeur dans Column (Colonne) est inférieure ou égale à la valeur que vous spécifiez.

Est supérieur à

Numérique

N/A

Supprime les lignes dont la valeur dans Column (Colonne) est supérieure à la valeur que vous spécifiez.

Supérieur ou égal à

Numérique

N/A

Supprime les lignes dont la valeur dans Column (Colonne) est supérieure ou égale à la valeur que vous spécifiez.

Est comprise entre

Numérique

N/A

Supprime les lignes dont la valeur dans Column (Colonne) est comprise entre ou égale à deux valeurs que vous spécifiez.

Contains

Texte

Categorical (catégorie)

Supprime les lignes dont la valeur dans Column (Colonne) contient une valeur que vous spécifiez.

Starts with

Texte

Categorical (catégorie)

Supprime les lignes dont la valeur dans Column (Colonne) commence par une valeur que vous spécifiez.

Se termine par

Texte

Categorical (catégorie)

Supprime les lignes dont la valeur dans Column (Colonne) se termine par une valeur que vous spécifiez.

Après avoir supprimé les lignes du jeu de données, SageMaker Canvas ajoute la transformation dans la section Modèle de recette. Si vous supprimez la transformation de la section Model recipe (Recette du modèle), les lignes reviennent dans votre jeu de données.

Capture d'écran de l'opération de suppression de lignes par valeurs personnalisées dans l'application SageMaker Canvas.

Changement de nom de colonne

Avec la transformation Rename columns (Renommer les colonnes), vous pouvez renommer les colonnes dans vos données. Lorsque vous renommez une colonne, SageMaker Canvas change le nom de la colonne dans l'entrée du modèle.

Vous pouvez renommer une colonne de votre ensemble de données en double-cliquant sur le nom de la colonne dans l'onglet Créer de l'application SageMaker Canvas et en saisissant un nouveau nom. En appuyant sur la touche Entrée, vous soumettez la modification, et en cliquant n'importe où en dehors de l'entrée, vous annulez la modification. Vous pouvez également renommer une colonne en cliquant sur l'icône More options (Plus d'options) ( Vertical ellipsis icon representing a menu or more options. ), située à la fin de la ligne en vue liste ou à la fin de la cellule d'en-tête en vue grille, et en choisissant Rename (Renommer).

Le nom de votre colonne ne peut pas dépasser 32 caractères, ni comporter de doubles traits de soulignement (__), et vous ne pouvez pas renommer une colonne avec le même nom qu'une autre colonne. Vous ne pouvez pas non plus renommer une colonne supprimée.

La capture d'écran suivante montre comment renommer une colonne en double-cliquant sur le nom de la colonne.

Capture d'écran montrant comment renommer une colonne à l'aide de la méthode du double-clic dans l'application SageMaker Canvas.

Lorsque vous renommez une colonne, SageMaker Canvas ajoute la transformation dans la section Modèle de recette. Si vous supprimez la transformation de la section Model recipe (Recette du modèle), la colonne reprend son nom d'origine.

Gestion des colonnes

Les transformations suivantes vous permettent de modifier le type de données des colonnes et de remplacer les valeurs manquantes ou les valeurs aberrantes pour des colonnes spécifiques. SageMaker Canvas utilise les types de données ou les valeurs mis à jour lors de la création de votre modèle, mais ne modifie pas votre jeu de données d'origine. Notez que si vous avez supprimé une colonne de votre jeu de données à l'aide de Supprimer des colonnes transformer, vous ne pouvez pas remplacer les valeurs de cette colonne.

Remplacer les valeurs manquantes

Les valeurs manquantes sont fréquentes dans les jeux de données de machine learning et peuvent avoir un impact sur la précision des modèles. Vous pouvez choisir de supprimer les lignes contenant des valeurs manquantes, mais votre modèle est plus précis si vous choisissez de remplacer les valeurs manquantes à la place. Avec cette transformation, vous pouvez remplacer les valeurs manquantes dans les colonnes numériques par la moyenne ou la médiane des données d'une colonne, ou vous pouvez également spécifier une valeur personnalisée pour remplacer les valeurs manquantes. Pour les colonnes non numériques, vous pouvez remplacer les valeurs manquantes par le mode (valeur la plus courante) de la colonne ou par une valeur personnalisée.

Utilisez cette transformation si vous voulez supprimer les lignes avec des valeurs nulles ou vides dans certaines colonnes. Pour supprimer les lignes qui contiennent des valeurs manquantes dans une colonne spécifiée, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Gérer les colonnes.

  2. Choisissez Remplacer les valeurs manquantes.

  3. Choisissez la Colonne dans laquelle vous voulez vérifier les valeurs manquantes.

  4. Définissez Mode sur Manuel pour remplacer les valeurs manquantes par des valeurs que vous spécifiez. Avec le paramètre Automatique (par défaut), SageMaker Canvas remplace les valeurs manquantes par des valeurs imputées qui correspondent le mieux à vos données. Cette méthode d'imputation est effectuée automatiquement pour chaque création de modèle, sauf si vous spécifiez le mode Manuel.

  5. Définissez la valeur Remplacer par :

    • Si votre colonne est numérique, sélectionnez Moyenne, Médiane, ou Personnalisée. Moyenne remplace les valeurs manquantes par la moyenne de la colonne, etMédiane remplace les valeurs manquantes par la médiane de la colonne. Si vous choisissez Personnalisée, vous devez spécifier une valeur personnalisée que vous souhaitez utiliser pour remplacer les valeurs manquantes.

    • Si votre colonne n'est pas numérique, sélectionnez Mode ou Personnalisée. Mode remplace les valeurs manquantes par le mode, ou la valeur la plus courante de la colonne. Pour Personnalisée, spécifiez une valeur personnalisée que vous souhaitez utiliser pour remplacer les valeurs manquantes.

  6. Choisissez Ajouter pour ajouter la transformation à la recette du modèle .

Après avoir remplacé les valeurs manquantes dans le jeu de données, SageMaker Canvas ajoute la transformation dans la section Modèle de recette. Si vous supprimez la transformation de la section Recette du modèle, les lignes reviennent dans votre jeu de données.

Capture d'écran de l'opération de remplacement des valeurs manquantes dans l'application SageMaker Canvas.

Remplacer les valeurs aberrantes

Les valeurs aberrantes, ou valeurs rares dans la distribution et la plage de vos données, peuvent avoir un impact négatif sur la précision du modèle et allonger les temps de construction. SageMaker Canvas vous permet de détecter les valeurs aberrantes dans des colonnes numériques et de les remplacer par des valeurs comprises dans une plage acceptée dans vos données. Vous pouvez choisir de définir les valeurs aberrantes avec des écarts types ou une plage personnalisée, et vous pouvez remplacer les valeurs aberrantes par les valeurs minimales et maximales de la plage acceptée.

Pour supprimer les valeurs aberrantes de vos données, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, choisissez Gérer les colonnes.

  2. Choisissez Remplacer les valeurs aberrantes.

  3. Choisissez la Colonne que vous voulez vérifier pour les valeurs aberrantes.

  4. Pour Définir les valeurs aberrantes, choisissez Écart type, Plage numérique personnalisée ou Plage de quantiles personnalisée.

  5. Si vous choisissez Écart type, spécifiez une valeur pour Écarts-types comprise entre 1 et 3. Si vous choisissez Plage numérique personnalisée ou Plage de quantiles personnalisé, spécifiez les valeurs Min et Max (en nombres pour les plages numériques ou en centiles compris entre 0 et 100 % pour les plages de quantiles).

  6. Pour Remplacer par, sélectionnez la Plage minimale/maximale.

  7. Choisissez Ajouter pour ajouter la transformation à la Recette du modèle.

L'option Écart type détecte et supprime les valeurs aberrantes dans les colonnes numériques en utilisant la moyenne et l'écart type. Vous spécifiez le nombre d'écarts-types qu'une valeur doit avoir par rapport à la moyenne pour être considérée comme une valeur aberrante. Par exemple, si vous spécifiez 3 pour les écarts types, une valeur doit être inférieure à plus de 3 écarts types par rapport à la moyenne pour être considérée comme une valeur aberrante. SageMaker Canvas remplace les valeurs aberrantes par la valeur minimale ou maximale comprise dans la plage acceptée. Par exemple, si vous configurez les écarts types pour inclure uniquement les valeurs comprises entre 200 et 300, SageMaker Canvas change une valeur de 198 à 200 (valeur minimale).

Les options Plage numérique personnalisée et Plage de quantiles personnalisée détectent les valeurs aberrantes dans les colonnes numériques en utilisant les valeurs minimale et maximale. Utilisez cette méthode si vous connaissez vos valeurs seuils qui délimitent les valeurs aberrantes. Si vous choisissez une plage numérique, les valeurs minimale et maximale doivent être les valeurs numériques minimale et maximale que vous souhaitez autoriser. SageMaker Canvas remplace toutes les valeurs situées en dehors des valeurs minimale et maximale par les valeurs minimale et maximale. Par exemple, si votre plage n'autorise que des valeurs comprises entre 1 et 100, SageMaker Canvas change une valeur comprise entre 102 et 100 (valeur maximale). Si vous choisissez une plage de quantiles, les valeurs Min et Max doivent correspondre au minimum et au maximum de la plage de centiles (0 à 100) que vous souhaitez autoriser.

Après avoir remplacé les valeurs du jeu de données, SageMaker Canvas ajoute la transformation dans la section Modèle de recette. Si vous supprimez la transformation de la section Recette du modèle, les valeurs reviennent dans votre jeu de données.

Capture d'écran de l'opération de remplacement des valeurs aberrantes dans l'application SageMaker Canvas.

Modifier le type de données

SageMaker Canvas vous permet de modifier le type de données de vos colonnes entre numérique, texte et date/heure, tout en affichant le type de fonctionnalité associé à ce type de données. Un type de données fait référence au format des données et à leur mode de stockage, tandis que le type de fonctionnalité fait référence aux caractéristiques des données utilisées dans les algorithmes de machine learning, telles que les données binaires ou catégorielles. Vous pouvez ainsi modifier manuellement le type de données dans vos colonnes en fonction des fonctionnalités. La possibilité de choisir le type de données approprié garantit l'intégrité et la précision des données avant de créer des modèles. Ces types de données sont utilisés lors de la création de modèles.

Note

Actuellement, la modification du type de fonctionnalité (par exemple, de binaire à catégoriel) n'est pas prise en charge.

Le tableau suivant répertorie tous les types de données pris en charge dans Canvas.

Type de données Description Exemple

Numérique

Les données numériques représentent des valeurs numériques

1, 2, 3

1,1, 1,2. 1.3

Texte

Les données texte représentent des séquences de caractères, comme des noms ou des descriptions

A, B, C, D

pomme, banane, orange

1A!, 2A!, 3A!

Datetime

Les données de date/heure représentent des dates et des heures au format d'horodatage

2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00

Le tableau suivant répertorie tous les types de fonctionnalités pris en charge dans Canvas.

Type de fonction Description Exemple

Binaire

Les fonctionnalités binaires représentent deux valeurs possibles

0, 1, 0, 1, 0 (2 valeurs distinctes)

true, false, true (2 valeurs distinctes)

Categorical (catégorie)

Les fonctionnalités catégorielles représentent des catégories ou des groupes distincts

pomme, banane, orange, pomme (3 valeurs distinctes)

A, B, C, D, E, A, D, C (5 valeurs distinctes)

Pour modifier le type de données d'une colonne dans un jeu de données, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, accédez à la vue en colonnes ou à la vue en grille et sélectionnez le menu déroulant Type de données pour la colonne en question.

  2. Dans le menu déroulant Type de données, choisissez le type de données à convertir. La capture d'écran suivante illustre le menu déroulant.

    Le menu déroulant de conversion des types de données pour une colonne, affiché dans l'onglet Créer.
  3. Pour Colonne, choisissez ou vérifiez la colonne dont vous souhaitez modifier le type de données.

  4. Pour Nouveau type de données, choisissez ou vérifiez le nouveau type de données vers lequel vous souhaitez effectuer la conversion.

  5. Si le Nouveau type de données est Datetime ou Numeric, choisissez l'une des options suivantes sous Gérer les valeurs non valides :

    1. Remplacer par une valeur vide : les valeurs non valides sont remplacées par une valeur vide

    2. Supprimer les lignes : les lignes comportant une valeur non valide sont supprimées du jeu de données

    3. Remplacer par une valeur personnalisée : les valeurs non valides sont remplacées par la Valeur personnalisée que vous spécifiez.

  6. Choisissez Ajouter pour ajouter la transformation à la recette du modèle .

Le type de données de votre colonne doit maintenant être mis à jour.

Préparation des données de séries temporelles

Utilisez les fonctionnalités suivantes pour préparer vos données de séries temporelles à la création de modèles de prévision de séries temporelles.

Rééchantillonnage des données de séries temporelles

En rééchantillonnant les données de séries temporelles, vous pouvez établir des intervalles réguliers pour les observations dans votre jeu de données de séries temporelles. Ce processus s'avère particulièrement utile lorsque vous travaillez avec des données de séries temporelles contenant des observations espacées de manière irrégulière. Par exemple, vous pouvez utiliser le rééchantillonnage pour transformer un jeu de données contenant des observations enregistrées toutes les heures, toutes les deux heures et toutes les trois heures en un intervalle régulier d'une heure entre les observations. Les algorithmes de prévision exigent que les observations soient effectuées à intervalles réguliers.

Pour rééchantillonner les données de séries temporelles, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, sélectionnez Série chronologique.

  2. Choisissez Resample (Rééchantillonner).

  3. Pour Colonne d'horodatage, choisissez la colonne à laquelle vous souhaitez appliquer la transformation. Vous ne pouvez sélectionner que des colonnes de type Date/heure.

  4. Dans la section Paramètres de fréquence, choisissez une Fréquence et une Vitesse. La Fréquence est l'unité de fréquence et la Vitesse est l'intervalle de l'unité de fréquence à appliquer à la colonne. Par exemple, en choisissant Calendar Day pour Fréquence et 1 pour Vitesse, l'intervalle augmente tous les jours calendaires ; par exemple 2023-03-26 00:00:00, 2023-03-27 00:00:00, 2023-03-28 00:00:00. Consultez le tableau suivant cette procédure pour obtenir la liste complète des valeurs de fréquence.

  5. Choisissez Ajouter pour ajouter la transformation à la recette du modèle .

Le tableau suivant répertorie tous les types de Fréquence que vous pouvez sélectionner lors du rééchantillonnage des données de séries temporelles.

Fréquence Description Exemples de valeurs (en supposant que la Vitesse est définie sur 1)

Jour ouvrable

Rééchantillonner les observations dans la colonne de date/heure les 5 jours ouvrables de la semaine (lundi, mardi, mercredi, jeudi, vendredi)

24/24 00:00:00

27 00:00:00

28 00:00:00

29/30 00:00:00

30 00:00:00

31/03 00:00:00

03/04/2023 00:00:00

Jour calendaire

Rééchantillonner les observations dans la colonne de date/heure les 7 jours de la semaine (lundi, mardi, mercredi, jeudi, vendredi, samedi, dimanche)

06/26 00:00:00

27 00:00:00

28 00:00:00

29/30 00:00:00

30 00:00:00

31/03 00:00:00

01/04/2023 00:00:00

semaine

Rééchantillonner les observations dans la colonne de date/heure le premier jour de chaque semaine

13 00:00:00

20 00:00:00

27 00:00:00

03/04/2023 00:00:00

Mois

Rééchantillonner les observations dans la colonne de date/heure le premier jour de chaque mois

01/01 00:00:00

01/04/2023 00:00:00

2023-05-01 00:00:00

2023-06-01 00:00:00

Trimestre annuel

Rééchantillonner les observations dans la colonne de date/heure le dernier jour de chaque trimestre

31/03 00:00:00

23-06-30 00:00:00

23-09-30 00:00:00

23/12-31 00:00:00

Année

Rééchantillonner les observations dans la colonne de date/heure le dernier jour de chaque année

05.12-31 0:00:00

23/12-31 00:00:00

31/12/2024 00:00:00

Heure

Rééchantillonner les observations dans la colonne de date/heure toutes les heures, tous les jours

24/24 00:00:00

24 juillet 01:00:00

24 juillet 02:00:00

24/03 03:00:00

Minute

Rééchantillonner les observations dans la colonne de date/heure toutes les minutes, toutes les heures

24/24 00:00:00

24/24 00:01:00

24/24 00:02:00

24/24 00:03:00

Seconde

Rééchantillonner les observations dans la colonne de date/heure toutes les secondes, toutes les minutes

24/24 00:00:00

24 heures-24 00:00:01

24 heures-24 00:00:02

24 heures-24 00:00:03

Lorsque vous appliquez la transformation de rééchantillonnage, vous pouvez utiliser l'option Avancé pour spécifier la façon dont les valeurs résultantes des autres colonnes (autres que la colonne d'horodatage) de votre jeu de données sont modifiées. Pour ce faire, vous pouvez spécifier la méthodologie de rééchantillonnage, qui peut être un sous-échantillonnage ou un suréchantillonnage pour les colonnes numériques et non numériques.

Le sous-échantillonnage augmente l'intervalle entre les observations dans le jeu de données. Par exemple, si vous sous-échantillonnez les observations qui sont effectuées toutes les heures ou toutes les deux heures, chaque observation de votre jeu de données est effectuée toutes les deux heures. Les valeurs des autres colonnes d'observations horaires sont agrégées en une seule valeur en utilisant une méthode de combinaison. Les tableaux ci-dessous fournissent un exemple de sous-échantillonnage des données de séries temporelles en utilisant la moyenne comme méthode de combinaison. Les données sont sous-échantillonnées toutes les deux heures à toutes les heures.

Le tableau suivant fournit les relevés de températures horaires plus d'un jour avant le sous-échantillonnage.

Horodatage Température (Celsius)

12:00

30

1:00

32

2:00

35

3:00

32

4:00

30

Le tableau suivant indique les relevés de température après le sous-échantillonnage toutes les deux heures.

Horodatage Température (Celsius)

12:00

30

2:00

33,5

2:00

35

4:00

32,5

Pour sous-échantillonner les données de séries temporelles, procédez comme suit :

  1. Développez la section Avancé sous la transformation Rééchantillonner.

  2. Choisissez Combinaison non numérique pour spécifier la méthode de combinaison des colonnes non numériques. Consultez le tableau ci-dessous pour obtenir la liste complète des méthodes de combinaison.

  3. Choisissez Combinaison numérique pour spécifier la méthode de combinaison des colonnes numériques. Consultez le tableau ci-dessous pour obtenir la liste complète des méthodes de combinaison.

Si vous ne spécifiez aucune méthode de combinaison, les valeurs par défaut sont Most Common pour Combinaison non numérique et Mean pour Combinaison numérique. Le tableau suivant répertorie les méthodes de combinaison numérique et non numérique.

Méthodologie de sous-échantillonnage Méthode de combinaison Description

Combinaison non numérique

La plus courante

Agréger les valeurs de la colonne non numérique par la valeur la plus courante

Combinaison non numérique

La dernière

Agréger les valeurs de la colonne non numérique par la dernière valeur de la colonne

Combinaison non numérique

La première

Agréger les valeurs de la colonne non numérique par la première valeur de la colonne

Combinaison numérique

Mean

Agréger les valeurs de la colonne numérique en prenant la moyenne de toutes les valeurs de la colonne

Combinaison numérique

Médiane

Agréger les valeurs de la colonne numérique en prenant la médiane de toutes les valeurs de la colonne

Combinaison numérique

Min

Agréger les valeurs de la colonne numérique en prenant le minimum de toutes les valeurs de la colonne

Combinaison numérique

Max

Agréger les valeurs de la colonne numérique en prenant le maximum de toutes les valeurs de la colonne

Combinaison numérique

Somme

Agréger les valeurs de la colonne numérique en ajoutant toutes les valeurs de la colonne

Combinaison numérique

Quantile

Agréger les valeurs de la colonne numérique en prenant le quantile de toutes les valeurs de la colonne

Le suréchantillonnage réduit l'intervalle entre les observations dans le jeu de données. Par exemple, si vous suréchantillonnez les observations effectuées toutes les deux heures en observations horaires, les valeurs des autres colonnes des observations horaires sont interpolées à partir de celles qui ont été effectuées toutes les deux heures.

Pour suréchantillonner les données de séries temporelles, procédez comme suit :

  1. Développez la section Avancé sous la transformation Rééchantillonner.

  2. Choisissez Estimation non numérique pour spécifier la méthode d'estimation pour les colonnes non numériques. Consultez le tableau suivant cette procédure pour obtenir la liste complète des méthodes.

  3. Choisissez Estimation numérique pour spécifier la méthode d'estimation pour les colonnes numériques. Consultez le tableau ci-dessous pour obtenir la liste complète des méthodes.

  4. (Facultatif) Choisissez la colonne ID pour spécifier la IDs colonne contenant les observations de la série chronologique. Spécifiez cette option si votre jeu de données comporte deux séries temporelles. Si vous avez une colonne qui représente une seule série temporelle, ne spécifiez pas de valeur pour ce champ. Par exemple, vous pouvez avoir un jeu de données comportant les colonnes id et purchase. La colonne id comporte les valeurs suivantes : [1, 2, 2, 1]. La colonne purchase comporte les valeurs suivantes : [$2, $3, $4, $1]. Par conséquent, le jeu de données comporte deux séries temporelles : 1: [$2, $1] et 2: [$3, $4].

Si vous ne spécifiez aucune méthode d'estimation, les valeurs par défaut sont Forward Fill pour Estimation non numérique et Linear pour Estimation numérique. Le tableau suivant répertorie les méthodes d'estimation.

Méthodologie de suréchantillonnage Méthode d'estimation Description

Estimation non numérique

Remplissage avant

Interpolez les valeurs de la colonne non numérique en prenant les valeurs consécutives après toutes les valeurs de la colonne

Estimation non numérique

Remplissage arrière

Interpolez les valeurs de la colonne non numérique en prenant les valeurs consécutives avant toutes les valeurs de la colonne

Estimation non numérique

Conserver les valeurs manquantes

Interpoler les valeurs de la colonne non numérique en affichant les valeurs vides

Estimation numérique

Linéaire, Temps, Index, Zéro, Linéaire en S, Le plus proche, Quadratique, Cubique, Barycentrique, Polynomial, Krogh, Polynomial sous forme de fragments, Spline, P-chip, Akima, Spline cubique, À partir de dérivées

Interpolez les valeurs de la colonne numérique à l'aide de l'interpolateur spécifié. Pour plus d'informations sur les méthodes d'interpolation, voir pandas. DataFrame.interpolate dans la documentation sur les pandas.

La capture d'écran suivante illustre les paramètres Avancé avec les champs de sous-échantillonnage et de suréchantillonnage remplis.

L'application Canvas, avec le panneau latéral de rééchantillonnage des séries chronologiques affichant les options avancées.

Utilisation de l'extraction de la date/heure

Avec la transformation d'extraction datetime, vous pouvez extraire les valeurs d'une colonne datetime vers une colonne séparée. Par exemple, si vous disposez d'une colonne contenant les dates des achats, vous pouvez extraire la valeur du mois dans une colonne distincte et utiliser la nouvelle colonne lors de la création de votre modèle. Vous pouvez également extraire plusieurs valeurs vers des colonnes distinctes avec une seule transformation.

Votre colonne datetime doit utiliser un format d'horodatage pris en charge. Pour obtenir la liste des formats pris en charge par SageMaker Canvas, consultezPrévisions de séries chronologiques dans Amazon SageMaker Canvas. Si votre jeu de données n'utilise aucun des formats pris en charge, mettez-le à jour pour utiliser un format d'horodatage compatible et réimportez-le dans Amazon SageMaker Canvas avant de créer votre modèle.

Pour effectuer une extraction datetime, procédez comme suit.

  1. Dans l'onglet Créer de l'application SageMaker Canvas, dans la barre des transformations, choisissez Afficher tout.

  2. Choisissez Extract features (Extraire des ressources).

  3. Choisissez la Colonne d'horodatage dont vous voulez extraire les valeurs.

  4. Pour Valeurs, sélectionnez une ou plusieurs valeurs à extraire de la colonne. Les valeurs que vous pouvez extraire d'une colonne d'horodatage sont Year, Month, Day, Hour, Week of year, Day of year et Quarter (Année, Mois, Jour, Heure, Semaine de l'année, Jour de l'année et Trimestre).

  5. (Facultatif) Choisissez Prévisualiser pour prévisualiser les résultats de la transformation.

  6. Choisissez Ajouter pour ajouter la transformation à la recette du modèle .

SageMaker Canvas crée une nouvelle colonne dans le jeu de données pour chacune des valeurs que vous extrayez. À l'exception des valeurs annuelles, SageMaker Canvas utilise un codage basé sur 0 pour les valeurs extraites. Par exemple, si vous extrayez la valeur Month (Mois), janvier est extrait en tant que 0, et février est extrait en tant que 1.

Capture d'écran de la zone d'extraction de la date et de l'heure dans l'application SageMaker Canvas.

Vous pouvez voir la transformation répertoriée dans la section Model recipe (Recette du modèle). Si vous supprimez la transformation de la section Model recipe (Recette du modèle), les nouvelles colonnes sont supprimées du jeu de données.