Configurations avancées de modélisme - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configurations avancées de modélisme

Amazon SageMaker Canvas prend en charge différents paramètres avancés que vous pouvez configurer lors de la création d'un modèle. La page suivante répertorie tous les paramètres avancés ainsi que des informations supplémentaires sur leurs options et configurations.

Note

Les paramètres avancés suivants ne sont actuellement pris en charge que pour les modèles de prévision numériques, catégoriques et chronologiques.

Paramètres avancés du modèle de prédiction numérique et catégorique

Canvas prend en charge les paramètres avancés suivants pour les types de modèles de prédiction numériques et catégoriques.

Métrique d'objectif

La métrique objective est la métrique que vous souhaitez que Canvas optimise lors de la création de votre modèle. Si vous ne sélectionnez aucune métrique, Canvas en choisit une pour vous par défaut. Pour une description des mesures disponibles, consultez leRéférence des métriques.

Méthode d'entraînement

Canvas peut sélectionner automatiquement la méthode d'entraînement en fonction de la taille du jeu de données, ou vous pouvez la sélectionner manuellement. Vous pouvez choisir parmi les méthodes d'entraînement suivantes :

  • Ensemblage : SageMaker utilise la AutoGluon bibliothèque pour entraîner plusieurs modèles de base. Pour trouver la meilleure combinaison pour votre ensemble de données, le mode ensemble exécute 5 à 10 essais avec différents paramètres de modèle et de méta-paramètres. Ces modèles sont ensuite combinés à l'aide d'une méthode d'empilement d'ensembles afin de créer un modèle prédictif optimal. Pour obtenir la liste des algorithmes pris en charge par le mode ensemble pour les données tabulaires, consultez la Algorithmes section suivante.

  • Optimisation des hyperparamètres (HPO) : SageMaker recherche la meilleure version d'un modèle en ajustant les hyperparamètres à l'aide de l'optimisation bayésienne ou de l'optimisation multifidélité lors de l'exécution de tâches d'entraînement sur votre ensemble de données. HPOle mode sélectionne les algorithmes les plus pertinents pour votre jeu de données et sélectionne la meilleure plage d'hyperparamètres pour ajuster vos modèles. Pour régler vos modèles, le HPO mode exécute jusqu'à 100 essais (par défaut) afin de trouver les paramètres d'hyperparamètres optimaux dans la plage sélectionnée. Si la taille de votre jeu de données est inférieure à 100 Mo, SageMaker utilise l'optimisation bayésienne. SageMaker choisit l'optimisation multifidélité si votre jeu de données est supérieur à 100 Mo.

    Pour obtenir la liste des algorithmes pris en charge par HPO le mode pour les données tabulaires, consultez la Algorithmes section suivante.

  • Auto : choisit SageMaker automatiquement le mode d'assemblage ou le mode en fonction de la HPO taille de votre jeu de données. Si votre jeu de données est supérieur à 100 Mo, SageMaker choisissez le HPO mode. Dans le cas contraire, il choisit le mode Assemblage.

Algorithmes

En mode Ensembling, Canvas prend en charge les algorithmes d'apprentissage automatique suivants :

  • Lumière GBM — Un framework optimisé qui utilise des algorithmes basés sur des arbres avec augmentation du dégradé. Cet algorithme utilise des arborescences qui se développent en largeur plutôt qu'en profondeur, et est hautement optimisé en termes de vitesse.

  • CatBoost— Un framework qui utilise des algorithmes basés sur des arbres avec augmentation du gradient. Optimisé pour la gestion des variables catégorielles.

  • XGBoost— Un framework qui utilise des algorithmes basés sur des arbres avec une augmentation du gradient qui augmente en profondeur plutôt qu'en largeur.

  • Random Forest (Forêt aléatoire) : algorithme arborescent qui utilise plusieurs arbres de décision sur des sous-échantillons aléatoires des données avec remplacement. Les arbres sont divisés en nœuds optimaux à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d'éviter tout surajustement et d'améliorer les prédictions.

  • Extra Trees (Arbres supplémentaires) : algorithme arborescent qui utilise plusieurs arbres de décision sur l'ensemble du jeu de données. Les arbres sont divisés aléatoirement à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d'éviter tout surajustement et d'améliorer les prédictions. Les arbres supplémentaires ajoutent un degré de randomisation par rapport à l'algorithme Random Forest (Forêt aléatoire).

  • Linear Models (Modèles linéaires) : framework qui utilise une équation linéaire pour modéliser la relation entre deux variables dans les données observées.

  • Neural network torch (Réseau neuronal torch) : modèle de réseau neuronal implémenté à l'aide de Pytorch.

  • Neural network fast.ai (Réseau neuronal fast.ai) : modèle de réseau neuronal implémenté à l'aide de fast.ai.

En HPOmode, Canvas prend en charge les algorithmes d'apprentissage automatique suivants :

  • XGBoost— Un algorithme d'apprentissage supervisé qui tente de prédire avec précision une variable cible en combinant un ensemble d'estimations issues d'un ensemble de modèles plus simples et plus faibles.

  • Algorithme d'apprentissage profond — Un perceptron multicouche (MLP) et un réseau neuronal artificiel à anticipation. Cet algorithme traite les données qui ne sont pas linéairement séparables.

Fractionnement des données

Vous avez la possibilité de spécifier comment vous souhaitez répartir votre ensemble de données entre le jeu d'apprentissage (la partie de votre ensemble de données utilisée pour créer le modèle) et le jeu de validation (la partie de votre ensemble de données utilisée pour vérifier la précision du modèle). Par exemple, un ratio de partage courant est de 80 % pour la formation et de 20 % pour la validation, 80 % de vos données étant utilisées pour créer le modèle tandis que 20 % sont enregistrées pour mesurer les performances du modèle. Si vous ne spécifiez pas de ratio personnalisé, Canvas divise automatiquement votre jeu de données.

Nombre maximum de candidats

Note

Cette fonctionnalité n'est disponible qu'en mode HPO entraînement.

Vous pouvez spécifier le nombre maximum de modèles candidats que Canvas génère lors de la création de votre modèle. Nous vous recommandons d'utiliser le nombre de candidats par défaut, qui est de 100, pour créer les modèles les plus précis. Le nombre maximum que vous pouvez spécifier est de 250. La diminution du nombre de modèles candidats peut avoir un impact sur la précision de votre modèle.

Durée maximale d'exécution des tâches

Vous pouvez spécifier le temps d'exécution maximal des tâches ou le temps maximal que Canvas passe à créer votre modèle. Passé le délai imparti, Canvas arrête la construction et sélectionne le meilleur modèle candidat.

La durée maximale que vous pouvez spécifier est de 720 heures. Nous vous recommandons vivement de maintenir l'exécution maximale des tâches supérieure à 30 minutes afin que Canvas dispose de suffisamment de temps pour générer des modèles candidats et terminer la création de votre modèle.

Paramètres avancés du modèle de prévision des séries chronologiques

Pour les modèles de prévision de séries chronologiques, Canvas prend en charge la métrique Objective, répertoriée dans la section précédente.

Les modèles de prévision de séries chronologiques prennent également en charge les paramètres avancés suivants :

Sélection de l'algorithme

Lorsque vous créez un modèle de prévision de séries chronologiques, Canvas utilise un ensemble (ou une combinaison) d'algorithmes statistiques et d'apprentissage automatique pour fournir des prévisions de séries chronologiques très précises. Par défaut, Canvas sélectionne la combinaison optimale de tous les algorithmes disponibles en fonction des séries chronologiques de votre jeu de données. Vous avez toutefois la possibilité de spécifier un ou plusieurs algorithmes à utiliser pour votre modèle de prévision. Dans ce cas, Canvas détermine le meilleur mélange en utilisant uniquement les algorithmes que vous avez sélectionnés. Si vous ne savez pas quel algorithme sélectionner pour entraîner votre modèle, nous vous recommandons de choisir tous les algorithmes disponibles.

Note

La sélection d'algorithmes n'est prise en charge que pour les versions standard. Si vous ne sélectionnez aucun algorithme dans les paramètres avancés, SageMaker exécute par défaut une génération rapide et forme les candidats au modèle à l'aide d'un seul algorithme d'apprentissage basé sur un arbre. Pour plus d'informations sur la différence entre les versions rapides et les versions standard, consultezComment fonctionnent les modèles personnalisés.

Canvas prend en charge les algorithmes de prévision des séries chronologiques suivants :

  • Moyenne mobile intégrée autorégressive (ARIMA) : modèle de série chronologique stochastique simple qui utilise une analyse statistique pour interpréter les données et établir des prévisions futures. Cet algorithme est utile pour les ensembles de données simples comportant moins de 100 séries chronologiques.

  • Réseau neuronal convolutif - Régression quantile (CNN-QR) — Algorithme d'apprentissage supervisé propriétaire qui entraîne un modèle global à partir d'une vaste collection de séries chronologiques et utilise un décodeur quantile pour faire des prédictions. CNN-QR fonctionne mieux avec de grands ensembles de données contenant des centaines de séries chronologiques.

  • DeepAR+ — Algorithme d'apprentissage supervisé propriétaire permettant de prévoir des séries chronologiques scalaires à l'aide de réseaux neuronaux récurrents (RNNs) pour entraîner conjointement un seul modèle sur l'ensemble des séries chronologiques. DeepAr+ fonctionne mieux avec de grands ensembles de données contenant des centaines de séries chronologiques de fonctionnalités.

  • Série chronologique non paramétrique (NPTS) — Un prévisionniste de référence probabiliste et évolutif qui prédit la distribution future des valeurs d'une série chronologique donnée en échantillonnant à partir d'observations passées. NPTSest utile lorsque vous travaillez avec des séries chronologiques éparses ou intermittentes (par exemple, pour prévoir la demande pour des articles individuels lorsque la série chronologique comporte de nombreux 0 ou de faibles nombres).

  • Lissage exponentiel (ETS) : méthode de prévision qui produit des prévisions qui sont des moyennes pondérées d'observations passées, les poids des anciennes observations diminuant de façon exponentielle. L'algorithme est utile pour les ensembles de données simples contenant moins de 100 séries chronologiques et pour les ensembles de données présentant des modèles de saisonnalité.

  • Prophet — Modèle de régression additif qui fonctionne le mieux avec des séries chronologiques ayant de forts effets saisonniers et des données historiques sur plusieurs saisons. L'algorithme est utile pour les ensembles de données présentant des tendances de croissance non linéaires proches d'une limite.

Quantiles de prévision

Pour la prévision des séries chronologiques, SageMaker forme 6 modèles candidats avec votre série chronologique cible. SageMaker Combine ensuite ces modèles à l'aide d'une méthode d'empilement d'ensembles afin de créer un modèle de prévision optimal pour une métrique objective donnée. Chaque modèle de prévision génère une prévision probabiliste en produisant des prévisions à des quantiles compris entre P1 et P99. Ces quantiles sont utilisés pour tenir compte de l'incertitude des prévisions. Par défaut, les prévisions sont générées pour 0.1 (p10), 0.5 (p50) et 0.9 (p90). Vous pouvez choisir de spécifier jusqu'à cinq de vos propres quantiles compris entre 0,01 (p1) et 0,99 (p99), par incréments de 0,01 ou plus.