Création d'un modèle personnalisé - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un modèle personnalisé

Utilisez Amazon SageMaker Canvas pour créer un modèle personnalisé à partir du jeu de données que vous avez importé. Utilisez le modèle que vous avez créé pour faire des prédictions sur de nouvelles données. SageMaker Canvas utilise les informations contenues dans le jeu de données pour créer jusqu'à 250 modèles et choisir celui qui fonctionne le mieux.

Lorsque vous commencez à créer un modèle, Canvas recommande automatiquement un ou plusieurs types de modèles. Les types de modèles appartiennent à l'une des catégories suivantes :

  • Prédiction numérique : également appelée régression en machine learning Utilisez le type de modèle de prédiction numérique lorsque vous souhaitez effectuer des prédictions pour des données numériques. Par exemple, vous souhaiterez peut-être prédire le prix de maisons sur la base de fonctionnalités telles que la superficie des maisons.

  • Prédiction catégorielle : également appelée classification en machine learning. Lorsque vous souhaitez classer les données en groupes, utilisez les types de modèles de prédiction catégorielle :

    • Prédiction à 2 catégories : utilisez le type de modèle de prédiction à 2 catégories (également appelé classification binaire en machine learning) lorsque vous souhaitez prédire deux catégories pour vos données. Par exemple, vous souhaiterez peut-être déterminer si un client est susceptible de se désister.

    • Prédiction à 3 catégories et plus : utilisez le type de modèle de prédiction à 3 catégories et plus (également appelé classification multi-classe en machine learning) lorsque vous souhaitez prédire trois catégories ou plus pour vos données. Vous pouvez par exemple prédire le statut du prêt d'un client sur la base de fonctionnalités telles que les paiements précédents.

  • Prévisions de séries temporelles : utilisez ces prévisions lorsque vous souhaitez effectuer des prédictions sur une période. Par exemple, vous souhaiterez peut-être prédire le nombre d'articles que vous allez vendre au cours du prochain trimestre. Pour plus d'informations sur les prévisions de séries chronologiques, consultez la section Prévisions de séries chronologiques dans Amazon SageMaker Canvas.

  • Prédiction d'image : utilisez le type de modèle de prédiction d'image à étiquette unique (également connu sous le nom de classification d'image à étiquette unique en machine learning) lorsque vous souhaitez attribuer des étiquettes à des images. Vous pouvez par exemple classer différents types de défauts de fabrication dans les images de votre produit.

  • Prédiction de texte : utilisez le type de modèle de prédiction de texte multi-catégories (également appelé classification de texte multi-classe en machine learning) lorsque vous souhaitez attribuer des étiquettes à des passages de texte. Par exemple, si vous disposez d'un jeu de données d'avis clients sur un produit, vous pouvez déterminer si les clients ont aimé le produit ou non. Votre modèle peut prédire si un passage de texte donné est Positive, Negative ou Neutral.

Pour obtenir un tableau des types de données d'entrée pris en charge pour chaque type de modèle, consultez Utilisation de modèles personnalisés.

Pour chaque modèle de données tabulaire que vous créez (qui inclut des modèles de prédiction numérique ou catégorielle, de prévision de séries temporelles ou de prédiction de texte), vous choisissez la Colonne cible. La Target column (Colonne cible) est la colonne qui contient les informations que vous souhaitez prédire. Par exemple, si vous créez un modèle pour prédire si des personnes ont annulé leurs abonnements, la Colonne cible contient des points de données yes ou no concernant le statut d'annulation d'une personne.

Pour les modèles de prédiction d'image, vous créez le modèle à partir d'un jeu de données d'images auxquelles des étiquettes ont été attribuées. Pour les images non étiquetées que vous fournissez, le modèle prédit une étiquette. Par exemple, si vous créez un modèle pour prédire si une image est un chat ou un chien, vous fournissez des images portant l'étiquette chat ou chien lors de la création du modèle. Le modèle peut ensuite accepter des images non étiquetées et les prédire comme étant des chats ou des chiens.

Que se passe-t-il lorsque vous créez un modèle

Pour créer votre modèle, vous pouvez choisir entre une Quick build (Création rapide) ou une Standard build (Création standard). Les modèles de type Création rapide ont un délai de création plus court, mais les modèles de type Création standard sont généralement plus précis.

Pour les modèles de prévision tabulaires et chronologiques, Canvas utilise le sous-échantillonnage pour réduire la taille des ensembles de données supérieurs à 5 Go ou 30 Go, respectivement. Sous-échantillons sur toile à l'aide de la méthode d'échantillonnage stratifié. Le tableau ci-dessous indique la taille du sous-échantillon par type de modèle. Pour contrôler le processus d'échantillonnage, vous pouvez utiliser Data Wrangler dans Canvas pour échantillonner en utilisant la technique d'échantillonnage de votre choix. Pour les données de séries chronologiques, vous pouvez rééchantillonner pour agréger des points de données. Pour plus d'informations sur l'échantillonnage, consultezEchantillonnage. Pour plus d'informations sur le rééchantillonnage des données de séries chronologiques, consultez. Rééchantillonner les données de séries temporelles

Si vous choisissez de créer rapidement un jeu de données de plus de 50 000 lignes, Canvas échantillonne vos données jusqu'à 50 000 lignes pour réduire le temps d'apprentissage du modèle.

Le tableau suivant résume les principales caractéristiques du processus de création de modèles, notamment les temps de construction moyens pour chaque modèle et type de construction, la taille du sous-échantillon lors de la création de modèles avec de grands ensembles de données et le nombre minimum et maximum de points de données que vous devez avoir pour chaque type de construction.

Limite Prédiction numérique et catégorielle Prédiction de séries temporelles Prédiction d'image Prédiction de texte

Temps de construction rapide

2 à 20 minutes

2 à 20 minutes

15 à 30 minutes

15 à 30 minutes

Temps de construction standard

2 à 4 heures

2 à 4 heures

2 à 5 heures

2 à 5 heures

Taille du sous-échantillon (taille réduite d'un grand ensemble de données après un sous-échantillonnage de Canvas)

5 Go

30 Go

N/A

N/A

Nombre minimal d'entrées (lignes) pour les créations rapides

Catégorie 2 : 500 lignes

3 catégories et plus, numérique, de séries temporelles : N/A

N/A

N/A

N/A

Nombre minimal d'entrées (lignes, images ou documents) pour les créations standard

250

50

50

N/A

Nombre maximal d'entrées (lignes, images ou documents) pour les créations rapides

N/A

N/A

5000

7500

Nombre maximal d'entrées (lignes, images ou documents) pour les créations standard

N/A

150 000

180 000

N/A

Nombre maximal de colonnes

1 000

1 000

N/A

N/A

Si vous vous déconnectez lors de l'exécution d'une Création rapide, il se peut que votre création soit interrompue jusqu'à ce que vous vous reconnectiez. Lorsque vous vous reconnectez, Canvas reprend la Création rapide.

Canvas prédit les valeurs à partir des informations du reste du jeu de données, en fonction du type de modèle :

  • Pour une prédiction catégorielle, Canvas place chaque ligne dans l'une des catégories répertoriées dans la Colonne cible.

  • Pour la prédiction numérique, Canvas utilise les informations contenues dans le jeu de données pour prédire les valeurs numériques dans la Colonne cible.

  • Pour les prévisions de séries temporelles, Canvas utilise des données historiques pour prédire les valeurs futures de la Colonne cible.

  • Pour la prédiction d'image, Canvas utilise des images auxquelles des étiquettes ont été attribuées afin de prédire les étiquettes des images non étiquetées.

  • Pour la prédiction de texte, Canvas analyse les données texte auxquelles des étiquettes ont été attribuées afin de prédire les étiquettes des passages de texte non étiquetés.

Fonctionnalités supplémentaires pour faciliter la création de votre modèle

Avant de créer votre modèle, vous pouvez utiliser Data Wrangler dans Canvas pour préparer vos données à l'aide de plus de 300 transformations et opérateurs intégrés. Data Wrangler prend en charge les transformations pour les ensembles de données tabulaires et d'images. En outre, vous pouvez vous connecter à des sources de données extérieures à Canvas, créer des tâches pour appliquer des transformations à l'ensemble de votre ensemble de données et exporter vos données entièrement préparées et nettoyées pour les utiliser dans des flux de travail ML en dehors de Canvas. Pour de plus amples informations, veuillez consulter Préparation des données.

Pour consulter des visualisations et des analyses afin d'explorer vos données et de déterminer les fonctionnalités à inclure dans votre modèle, vous pouvez utiliser les analyses intégrées de Data Wrangler. Vous pouvez également accéder à un rapport sur la qualité et les informations des données qui met en évidence les problèmes potentiels liés à votre ensemble de données et fournit des recommandations pour les résoudre. Pour de plus amples informations, veuillez consulter Effectuer une analyse exploratoire des données () EDA.

Outre les fonctionnalités plus avancées de préparation et d'exploration des données fournies par Data Wrangler, Canvas fournit certaines fonctionnalités de base que vous pouvez utiliser :

Pour les jeux de données tabulaires comportant plusieurs colonnes (tels que les jeux de données destinés à créer des types de modèles de prédiction catégorielle ou numérique ou de prévision de séries temporelles), des points de données peuvent être manquants sur certaines lignes. Pendant que Canvas crée le modèle, il ajoute automatiquement les valeurs manquantes. Canvas utilise les valeurs de votre jeu de données pour effectuer une approximation mathématique des valeurs manquantes. Pour atteindre la meilleure prédiction de modèle possible, nous vous recommandons d'ajouter les données manquantes si vous les trouvez. Notez que la fonctionnalité de données manquantes n'est pas prise en charge pour les modèles de prédiction de texte ou d'image.

Mise en route

Pour commencer à créer un modèle personnalisé, consultez Créer un modèle et suivez la procédure correspondant au type de modèle que vous souhaitez créer.